home *** CD-ROM | disk | FTP | other *** search
/ Libris Britannia 4 / science library(b).zip / science library(b) / MATHEMAT / STATISTI / H201.ZIP / AP30_H.AZF / HELP.HTT < prev   
Text File  |  1993-12-25  |  318KB  |  7,008 lines

  1. Arcus Pro-Stat Help: |CONTENTS|
  2.  
  3. ¬<Introduction>╪496       ¬
  4. ¬<Basics>╪17430     ¬
  5. ¬<Data Management>╪35334     ¬
  6. ¬<Database Manager>╪59749     ¬
  7. ¬<Analysis>╪77148     ¬
  8. ¬<Algebraic Calculator>╪288806    ¬
  9. ¬<Setup>╪9267      ¬
  10. ¬<Technical Information>╪3186      ¬
  11. ¬<Appendices>╪292864    ¬
  12. ¬<Reference List>╪310584    ¬
  13.  
  14. ¬<Help>╪297385    ¬
  15.  
  16. This is the hypertext help system for Arcus Pro-Stat version 3.  If you are not
  17. sure how to use this system then please press F1 now.
  18.  
  19. |Introduction|
  20.  
  21. Arcus is a general statistical analysis package which has been developed for
  22. use in biomedical research.  It has also found popularity in education and many
  23. branches of commerce.  The Arcus project was started because the aims listed
  24. below were not met by any other software package for the PC.  Arcus has now
  25. developed a style of its own and a world wide reputation for making statistical
  26. analysis more approachable.  As we develop the Arcus project the following aims
  27. continue to direct our work.
  28.  
  29. 1.      A collection of the most commonly used statistical procedures built on
  30.         robust modern methodology to achieve accuracy and to avoid the
  31.         compromise of approximation wherever possible.
  32.  
  33. 2.      A user friendly approach which is intuitive and which requires little
  34.         reference to printed literature.
  35.  
  36. 3.      A detailed coverage of the statistical procedures which are done badly
  37.         or not at all by other statistical packages.
  38.  
  39. 4.      A toolbox of basic statistical procedures which are useful in research
  40.         but are seldom found in easily accessible forms in other statistical
  41.         packages.
  42.  
  43. 5.      A project for which the primary objective is not financial but is a
  44.         dedication to the excellence of the product.  This project is to be
  45.         supported indefinitely.
  46.  
  47.  
  48. Since the conception of the Arcus project in 1988 there has been a commitment
  49. to provide facilities which the users request and, most importantly, to present
  50. these facilities in a way which is user friendly.  These objectives are often
  51. difficult to apply to statistical analysis but after much consultation with
  52. Arcus users it has been possible to develop interfaces which are intuitively
  53. simple to use.  As a registered user you are now entitled to submit suggestions
  54. for the development of the Arcus project.  If you are a member of an
  55. organisation which has a site licence for Arcus then please make your
  56. suggestions through one representative.  If you have any problems with this
  57. software or suggestions of new features for future versions then you are most
  58. welcome to write to us.  Please make clear reference to published literature
  59. in all correspondence concerning statistical calculation or inference.
  60. Newsletters keep the Arcus user informed of developments in the project and
  61. you are invited to submit articles concerning any aspect of statistical
  62. analysis, computing or your application of Arcus.
  63.  
  64.  
  65. All correspondence should be sent to:
  66.  
  67. Dr Iain E. Buchan,
  68. Medical Computing,
  69. 83, Turnpike Road,
  70. Aughton,
  71. West Lancashire, L39 3LD.
  72. UNITED KINGDOM
  73.  
  74. Tel (0)695 424 034
  75. Fax (0)51 256 7001
  76.  
  77. |Technical Information|
  78.  
  79. Arcus requires at least 448k of free memory (i.e. 640k + disk based DOS) in a
  80. 286 or better system running or emulating MS DOS version 3.30 or later.  MS DOS
  81. version 5 and above enhances Arcus Pro-Stat by providing more memory and
  82. executing the code faster than pervious versions of DOS.  If you have extended
  83. memory configured as expanded memory using a driver such as EMM.EXE or
  84. EMM386.EXE then Arcus Pro-Stat will use this to improve the overall efficiency
  85. of the package.  Further enhancements in operation speed are afforded by using
  86. a disk cache system such as SMARTDRV.SYS supplied with MS DOS.
  87.  
  88. The number of data points which Arcus can hold at any one time is memory which
  89. your computer  has free. This is reflected in the storage capacity of the
  90. worksheet.  When you start an Arcus session the number of cells which the
  91. worksheet can contain is a function of the amount of addressable free memory
  92. divided between 50 columns.  You can reset the column limit and then the
  93. maximum number of rows is determined by free memory.  The total data storage
  94. capacity is greatest on a well configured 486 or Pentium with expanded memory.
  95.  
  96. Arcus Pro-Stat will run faster in the presence of a mathematical co-processor
  97. because the burden of floating point maths is taken away from the program code
  98. which emulates a co-processor in the absence of one.  Some calculations and
  99. sorting/ranking procedures will run up to five times faster.  486 DX and
  100. Pentium systems have floating point co-processors as standard.
  101.  
  102. Please note that Arcus now requires at least a 286 processor.  It will not run
  103. on old 8086, 8088, V20 or V30 systems.
  104.  
  105. Microsoft's mouse driver (MOUSE.COM) is supplied on installation disk one, this
  106. should be tried if you experience problems with your existing mouse driver
  107. software.
  108.  
  109. Arcus graphics screen modes are selected by an internal system analysis routine
  110. (Autoselect) but this may be overridden by an option in the ¬setup╪9267      ¬ menu.  Due
  111. to the wide diversity of video cards available Arcus can not be guaranteed to
  112. display every screen perfectly but it has been tested with CGA, EGA, VGA, MCGA
  113. and Hercules.  If you have any problems with Arcus graphics then try using
  114. different user defined screen selections.
  115.  
  116. In order to display Arcus graphics with a Hercules monochrome graphics adapter
  117. you will need to have loaded the MSHERC.COM program before starting the main
  118. Arcus program.  Install handles this for you by inserting the line MSHERC.COM
  119. into the ARCUS.BAT file which loads Hercules support routines when a Hercules
  120. monochrome adapter is detected.
  121.  
  122. The graphics provided in Arcus can be used for presentation if you have a
  123. PostScript printer.  The other printer options, Hewlett Packard Laserjet and
  124. Epson FX, are simple screen dumps which are intended for instant visual
  125. analysis only.  If you do not have a PostScript compatible printer then you can
  126. save Arcus PostScript graphics files to disk and have them printed out on a
  127. PostScript system at a later date.
  128.  
  129. Most results screens, including the pictorial statistics selections which are
  130. marked with a hash(#) in the menu, use only standard ASCII characters so that you
  131. can obtain a hard copy using any line printer.  This is achieved by pressing P
  132. or E when results are displayed.  Please do not use the print screen key.  Once
  133. you have pressed P or E you enter the Arcus screen editor; the screen will turn
  134. to inverse video (black on white) and you have an opportunity to annotate the
  135. results before they are sent to the printer or to a log file on disk (please
  136. refer to ¬Basics╪17430     ¬).  The printing routines are designed to keep a paper record
  137. of the work done in your Arcus work sessions and they operate most efficiently
  138. with continuous or sheet-fed stationery.  For uninterrupted output please be
  139. sure to set the lines per page option in the setup menu, this defines the
  140. number of lines which your printer fits on one page.
  141.  
  142. If you experience a problem of Arcus Pro-Stat "hanging up" (i.e. no response
  143. from the keyboard) then please make sure that you have avoided the following
  144. situations.  Firstly you must not use Arcus Pro-Stat on a computer which runs
  145. anything less than a 286 processor.  Secondly you must remove unnecessary TSR
  146. (terminate and stay resident) programs before running Arcus Pro-Stat.  Very few
  147. TSR's cause problems but I have come across some rogue public domain and early
  148. freebie system utilities which cause problems with code that conforms strictly
  149. to Microsoft standards.  Examples of these rogues are KEYBUK.EXE and SPEED.SYS.
  150. Please use the MS DOS KEYB.COM routine in place of KEYBUK.EXE and do not use
  151. SPEED.SYS.  Please do not use any non-standard DOS components,  especially
  152. replacements for COMMAD.COM.  One DOS component which can cause strange
  153. looking screens is ANSI.SYS and the MODE.COM PAGE settings.  Try removing
  154. these from the CONFIG.SYS file, they are not used by good software and they
  155. take up memory.
  156.  
  157. If you are a Microsoft Windows user then please note that you can use the
  158. clipboard to paste results screens to other applications if you have installed
  159. Arcus Pro-Stat as DOS application in Windows running in enhanced mode.  Please
  160. remember that Arcus must be started via the ARCUS.BAT batch file, therefore you
  161. must specify ARCUS.BAT as the command line when installing Arcus as a DOS
  162. application in the Windows environment.  DO NOT LET WINDOWS INSTALL ARCUS
  163. AS A DOS APPLICATION WITH THE COMMAND LINE ARCUS_.EXE, IT MUST BE ARCUS.BAT
  164. INSTEAD!  Arcus Pro-Stat takes advantage of some memory management features in
  165. Windows even though it is run as a DOS application.
  166.  
  167. Arcus Pro-Stat has been developed using Microsoft FORTRAN version 5.1, Microsoft
  168. BASIC Professional Development System version 7.1 and Microsoft Macro Assembler
  169. with all complied code linked by Blinker version 3.0.  All executable code
  170. conforms to LIM (Lotus Intel Microsoft) standards and will take advantage of
  171. LIM 4 expanded memory if present.
  172.  
  173. |Setup|
  174.  
  175. ¬<Data File Path>╪10092     ¬
  176. ¬<Printer Port>╪10623     ¬
  177. ¬<Lines per Page>╪10854     ¬
  178. ¬<Graphics Printer>╪11630     ¬
  179. ¬<Graphics Screen>╪12540     ¬
  180. ¬<Mouse Sensitivity>╪12882     ¬
  181. ¬<Screen Colours>╪13127     ¬
  182.  
  183. Some information about your computer hardware and preferences is kept in memory
  184. for Arcus to refer to.  This information is stored in a setup file called
  185. ARCUS.SET which you will find in the Arcus program directory.  Do not attempt
  186. to alter this file externally.  All setup information is configured via the
  187. setup menu.  When you are happy with the information you have specified then
  188. you can update the ARCUS.SET file by selecting "save new settings".  If the
  189. ARCUS.SET file is accidentally lost then you are forced through this setup
  190. procedure when you being an Arcus session.
  191.  
  192.  
  193. |Data File Path|
  194.  
  195. This is the disk location where Arcus worksheet files are to be stored.  If you
  196. followed the default installation procedure on hard disk drive C then this
  197. location will be C:\ARCUS\DATA.  Using the \DATA sub-directory off the \ARCUS
  198. directory is logical, you are advised to keep your hard disk structure as simple
  199. as possible.  There are, however, circumstances such as network use when you
  200. would rather use a removable disk for data storage.  If this is the case then
  201. simply enter the drive path A:\.
  202.  
  203. |Printer Port|
  204.  
  205. This refers to the parallel printer port that you want to use for Arcus print
  206. -outs.  Most computers have at least one of these ports, designated LPT1, LPT2
  207. etc.  You can not select a serial port (COM1 ect).
  208.  
  209. |Lines per Page|
  210.  
  211. This tells Arcus how many lines of text your printer fits on one page.  It will
  212. vary with, font, line spacing and paper size.  Choose the lines per page figure
  213. which is appropriate to your printer when first switched on.  If you do not set
  214. this information properly then Arcus will put page breaks in the wrong place.
  215. This will cause printing over perforations or odd looking sheet fed print-outs
  216. with large gaps.
  217.  
  218. If you are a Laserjet user then you can select the number of lines per page on
  219. the printer as well as in Arcus setup.  You are advised to select a small font
  220. so that you save paper.
  221.  
  222. If you are a PostScript user then forget this option, it is set automatically
  223. for you when you select PostScript as the graphics printer type.
  224.  
  225. |Graphics Printer|
  226.  
  227. Arcus treats printed graphics in one of two ways.  The first is a simple screen
  228. dump for instant visual analysis only and the second is high quality output for
  229. presentation.  The only target for presentation quality graphics is PostScript.
  230. PostScript was chosen for Arcus as it is a portable and versatile language.
  231. PostScript output from Arcus can be directly to a printer or to an encapsulated
  232. PostScript file (EPS) on disk.  You can use this EPS file as a graphic figure
  233. in most word processing documents intended for a PostScript printer.
  234.  
  235. Simple screen dumps are provided for Hewlett Packard Laserjet and Epson FX
  236. compatible printers.  You can select the resolution and orientation of the
  237. output.  Please remember that these screen dumps are not intended for
  238. presentation, if you need presentation output then please consider a PostScript
  239. cartridge for your Laserjet.
  240.  
  241. |Graphics Screen|
  242.  
  243. Arcus can detect the best setting for most graphics adapters when you have set
  244. this option to "Autoselect".  There are, however, exceptions so you are given
  245. the option of forcing Arcus to use a particular graphics mode.  You can not use
  246. a video mode if it is not supported by your video card (see hardware manual).
  247.  
  248. |Mouse Sensitivity|
  249.  
  250. This sets the amount of mouse movement needed to shift the cursor.  Thus a low
  251. setting reqires less movement of the mouse to move the cursor i.e. more
  252. sensitive.  Settings are 1 to 100, most rodents prefer around 20.
  253.  
  254. |Screen Colours|
  255.  
  256. This section enables you to select colours for various categories of text.  Some
  257. Arcus screen colours can not be changed.  A black background has been chosen
  258. quite deliberately, this is to minimise the ambient radiation.  Radiation from
  259. monitors may not prove to be a significant problem but why take the chance?
  260.  
  261. |Save New Settings|
  262.  
  263. This saves the settings in the rest of this section to a file called ARCUS.SET.
  264. Unless you save your settings in this file they will not take effect next time
  265. you start Arcus.
  266.  
  267. |Return to Previous Menu|
  268.  
  269. This is the "step back" button in the Arcus menu system.  It is also achieved
  270. by pressing the Esc key or the right mouse button.
  271.  
  272. |Windows|
  273.  
  274. If you are a Microsoft Windows user then you should consider running Arcus as
  275. a DOS application from within Windows.  When running Arcus within Windows in
  276. 386 enhanced mode you can paste Arcus results screens into the Windows
  277. clipboard for subsequent use in Windows applications.  This is done by pressing
  278. Alt + Enter when Arcus is running, at this point you have a window of Arcus
  279. within the Windows environment.  You might find the best results with the font
  280. set at 10 x 16.  From the pull down menu of this window you select edit and copy
  281. to grab marked text or graphics from the Arcus window.  This is then available
  282. in the clipboard for pasting into Windows applications.  You can run Arcus
  283. Pro-Stat from a window within Windows but this is not advisable as it slows down
  284. all screen writing processes.  You can not initiate Arcus graphics when running
  285. Arcus in a window within Windows, this requires full screen operation.  See also
  286. "¬Technical Information╪3186      ¬".
  287.  
  288. |DOS Shell|
  289.  
  290. This option provides acess to all of your other programs without loosing any
  291. of the Arcus information you are working with.  The memory overhead is just
  292. 4k bytes therefore you have enough memory left to run virtually any
  293. application.  When you select this option you are presented with the DOS
  294. prompt from which you can issue all of the commands you could before you
  295. started Arcus.  To return to the current Arcus session you simply enter
  296. EXIT at the DOS prompt.
  297.  
  298. ¬<Windows>╪13832     ¬
  299.  
  300. |Developer's Notes|
  301.  
  302. Running Arcus in a Shell:
  303.  
  304. Free memory required = at least 384k
  305. Calling convention = ARCUS.BAT (NOT ARCUS_.exe !!!)
  306. Expanded memory = desirable but not essential (used for overlays)
  307.  
  308.  
  309. Automatic file loading:
  310.  
  311. You can export text files from your application and execute Arcus with the
  312. exported information already loaded and the starting position within Arcus
  313. already defined.
  314.  
  315.  
  316. Arcus files have the following structure:
  317.  
  318. Z%,"date of saving","description of contents"
  319. "name of column 1", J1%
  320. "name of column 2", J2%
  321. dc1r1!
  322. dc1r2!
  323. dc1r3!
  324. dc2r1!
  325. dc2r2!
  326. dc2r3!
  327.  
  328. Key: 
  329. Z% = number of variables (columns in worksheet, above it would be 2)
  330. JX% = number of data (rows) in worksheet column X, as an integer
  331. dcxry! = datum for column x, row y, as a single precision real number (thus
  332.          the data are read down and columns across the sheet from left to right)
  333.  
  334.  
  335. The following is an actual Arcus worksheet file:
  336.  
  337. 3,"29-03-1993","Arcus sample file"
  338. "col 1       ",3
  339. "col 2       ",3
  340. "col 3       ",3
  341. 1
  342. 2
  343. 3
  344. 1
  345. 2
  346. 3
  347. 1
  348. 2
  349. 3
  350.  
  351. This file follows the following structure:
  352. number of variables, date, description of file
  353. name of variable, number of data in variable
  354. repeat for no of variables...
  355. data read down each variable in turn...
  356.  
  357.  
  358. To start an Arcus session with a file called TEST already loaded you would use
  359. the command line ARCUS TEST or ARCUS.BAT TEST.  Please note that the opening
  360. credit screen is skipped if you opt for automatic file loading on start up.
  361.  
  362. The full command line options are: ARCUS /F$ /X% /R% /L$
  363. Key:
  364. F$ = file to load on starting
  365. X% = code for starting locus 9 = data management menu
  366.                             12 = worksheet
  367.                              1 = analysis menu
  368.                              0 = main menu
  369. R% = current printer row
  370. L$ = log file name
  371.  
  372. If you have any questions then please do not hesitate to contact me:
  373.  
  374. Iain E. Buchan,
  375. Medical Computing,
  376. 83, Turnpike Road,
  377. Aughton,
  378. West Lancs L39 3LD.
  379.  
  380. TEL UK  (0)695 424 034
  381. FAX UK  (0)51 256 7001
  382.  
  383. The |Basics|
  384.  
  385. The Arcus user interface consists of plain text on a dark background.  Menu
  386. selections are text icons of keys which can be pressed to select those menu
  387. items.  Alternatively the cursor keys or a mouse can be used to move the
  388. highlighted menu selection to the required item which is then selected by
  389. pressing the enter key or the left mouse button.  The menu system is a
  390. branching structure.  Moving backward to a previous menu is achieved by
  391. pressing the escape key, selecting its icon or by pressing the right mouse
  392. button.  The mouse options will only work if a mouse is present, mouse driver
  393. software is active and the mouse sensitivity has been defined in the setup menu.
  394.  
  395. The menu system is accompanied by a context sensitive hypertext help system.
  396. Help screens are called up by pressing F1 or the middle mouse button (if you
  397. have a three button mouse).  Each help screen is relevant to the menu item
  398. which is currently highlighted.  A "Statistical Method Selection" section  also
  399. provides information within Arcus.  This facility will attempt to find the best
  400. test for your data but please remember that it is not a panacea of statistical
  401. methodology (ref 2).  If you have any doubt about the best method for your data
  402. you should try to consult a statistician and you should most certainly consult
  403. a reputable text book.  This hypertext manual discusses the functionality of
  404. Arcus Pro-Stat but gives only a brief outline of the statistical methods used.
  405. For further statistical information I recommend that you seek out the references
  406. listed as Core Texts in the ¬reference list╪310584    ¬.  A list of good introductory texts
  407. is also provided in the reference section.
  408.  
  409. ¬Confidence intervals╪31897     ¬ (CI) are increasingly used in statistical inference.
  410. Particular effort has been made to allow Arcus to address this valuable trend.
  411. Wherever possible the most exact method for the CI has been used. Before
  412. calculation of a CI a screen is displayed to enable you to select a coefficient
  413. of confidence.  Short-cut key strokes are given for the commonly used confidence
  414. levels, for example pressing the enter key will set a 95% confidence level for
  415. the calculation which follows.  You are also given the opportunity to enter
  416. your own confidence coefficient.
  417.  
  418. Some of the Arcus functions are time consuming.  When a process is taking an
  419. appreciable amount of time you are usually given a warning message.  Please do
  420. not assume that the program has "crashed", this is highly unlikely. The most
  421. time consuming functions are the Lotus work file link, the calculation of exact
  422. probability for the Mann-Whitney U statistic in the presence of tied data and
  423. sample sizes for the comparison of means.
  424.  
  425. Hard copies of results from a printer are obtained by pressing the P key when
  426. results screens are displayed.  The ¬setup╪9267      ¬ menu and printer must be carefully
  427. configured.
  428.  
  429. A flexible print routine, the Arcus screen editor, is invoked by pressing P or
  430. E when results screens are displayed.  This allows you to annotate a text screen
  431. then send the results to a printer or to a log file on disk.  The screen editor
  432. accepts standard edit key combinations:
  433.  
  434. Ctrl+N                  Insert a line
  435. Ctrl+Y                  Delete a line
  436. Ctrl+P                  Embed a character
  437. Ctrl+Page Up            Move to top of text
  438. Ctrl+Page Down          Move to bottom of text
  439.  
  440. If you save your results to a log file then you have a text file of results
  441. from the current Arcus session on disk.  This text file can be examined and
  442. printed subsequently using the log file editor listed in the data management
  443. menu, it can also be imported by word processing software.  The name of the log
  444. file is composed of the day, the month, the number of the Arcus session on that
  445. day (one log file per session) and it is given the extension ".LOG".
  446.  
  447. Throughout Arcus the word variable is used to refer to a column of numbers in
  448. the worksheet.  These columns represent groups of data which can be investigated
  449. via the analysis section.  Any of the analyses which do not require columns of
  450. data from the worksheet are listed under the Instant Functions section.  This
  451. section includes distribution functions and methods for contingency table
  452. analysis.
  453.  
  454. |Essentials|
  455.  
  456. Arcus aims to provide a user-friendly interface to statistical methods.  This
  457. aim presents two major hurdles, the first is the ease of use of the software
  458. itself and the second is the level of assumed knowledge of statistics.  The
  459. development of Arcus has focused on providing basic statistical methods in an
  460. intuitively simple package.  One could say that statistical software should not
  461. be used by people who do not understand "statistics" and therefore justify a
  462. high level of assumed knowledge in statistical software.  We do, however, live
  463. in the real world where people forget statistical principles learned in the past
  464. but need to apply them to their research.  If Arcus can facilitate appropriate
  465. statistical design, analysis and inference by combining text and tools then the
  466. Arcus project will have achieved its objectives.
  467.  
  468. If you are an experienced statistician then you will find useful functions in
  469. Arcus which are absent or awkward to use in other statistical packages.  It is
  470. quicker to process data using Arcus on your desktop and only resort to SAS or
  471. Genstat etc if you need a function which is not covered by the present version
  472. of Arcus.
  473.  
  474. If you are an infrequent user of statistical methods then here is an approach
  475. you might find useful.  Consider your research as a sequence of actions:
  476. planning, data collection, data preparation and description, further analysis
  477. and presentation.  You are the expert in the questions you are investigating
  478. so you MUST think long and hard about these questions BEFORE you start the
  479. research.  Then consider how you can analyse any data you collect.  Ask yourself,
  480. will I be able to answer the questions I am asking or does my study leave itself
  481. open to criticisms such as too many confounding variables?.  In this situation
  482. you might need more control over your experimental conditions if this is
  483. possible.  Sample size estimation is a difficult area for the  uninitiated,
  484. Arcus provides sample size calcualations but I would advise you to seek
  485. statistical advice at this stage.  A short time with a statistician at the
  486. planning stage can save a lot of misdirected time and effort in the long run.
  487. BEFORE you see the statistician you must have thought carefully about the
  488. nature, collectability, controllability and appropriateness of the data you
  489. plan to collect.  If you go prepared you will get better answers faster.
  490.  
  491. There is a statistical method selection section within Arcus but it deals with
  492. only the most basic statistical analyses.  You are asked a series of questions
  493. about your study and you are given the most appropriate hypothesis test to use
  494. provided you are asking one of the simple questions covered by this section.
  495. Remember that the most simple questions often provide the most powerful answers.
  496. In some ways this function is an over simplification and you MUST NOT rely upon
  497. it for planning important studies.  It is, however, useful for preparing
  498. yourself before you see a statistician.  It will get you thinking along the
  499. right lines and thus make it easier for you to communicate your ideas to the
  500. statistician.
  501.  
  502. Once you have a basic plan of action you can start to prepare your data for
  503. entry into Arcus.  You have three main options  1) make a database  2) put
  504. data directly into the worksheet  3) put data directly into non-worksheet
  505. functions.  The latter refers to simple situations such as the contingency
  506. tables in the instant functions section of Arcus.  More arduous number entry
  507. tasks are made easier by using a keyboard with a number pad.  Most Arcus users
  508. will enter their data into the worksheet.  This involves preparing columns of
  509. numbers where each column represents a different group.  For more information
  510. please see ¬<Arcus Worksheet>╪36264     ¬.  Please note that the help text for each analysis
  511. function gives you information on how to prepare your data.  Some users might
  512. wish to make a database from which they can select information for export to
  513. the Arcus worksheet.  This is often the easiest approach to questionnaires.
  514. For more information please see the ¬<Database Manager>╪59749     ¬.
  515.  
  516. The next stage is to look at your data.  Are there any odd looking results and
  517. if so, why are they odd?  Then describe your data using ¬<Descriptive Statistics>╪80612     ¬.
  518. If you are happy with the questions you were asking before you started the study
  519. then go on to apply the hypothesis test which you planned at the outset.  It
  520. may be that there is no appropriate "test", you should establish your analytical
  521. plan at the start of the study, taking statistical advice if necessary.  NEVER
  522. sift through various tests trying to get p<0.05 this is not difficult to detect
  523. and makes you look very unprofessional.  If you do not understand why this is
  524. so then please see ¬<p values>╪29175     ¬.  The inferences you make from your statistical
  525. analyses require knowledge of both the statistical principles used and the
  526. biological relevance of the numerical conclusions.
  527.  
  528. The last step is presentation.  You might have a well conducted and well analysed
  529. study which falls down on presentation.  Here are a few basic pointers:  Present
  530. raw data where possible, use graphs if they can show something important, do not
  531. duplicate data (e.g. tables and text), do not present parametric and non
  532. -parametric descriptive statistics together, use the asterisk rating system for
  533. ¬<p values>╪29175     ¬ and use ¬<confidence intervals>╪31897     ¬ in discussion.
  534.  
  535. Summary:  Think long and hard about questions
  536.           ± Try Arcus statistical method selection
  537.           ± Try Arcus sample size calculations
  538.           ± Consult a statistician
  539.           See the help text for the chosen Arcus functions
  540.           Analyse and save results to a log file and/or paper output
  541.           ± Transfer data to a graphics package
  542.           Prepare report quoting Arcus version number and references
  543.  
  544.  
  545. |Interacting with Arcus|
  546.  
  547. Arcus uses a plain text screen with a title bar at the top.  The menus are lists
  548. of keys which you can press to select a menu title if you do not have an easier
  549. way of selecting menu items.  This occurs with some portable computers where the
  550. cursor keys are awkwardly placed.  If you have a good keyboard then select menu
  551. items using the cursor keys and the enter key.  The escape key moves you back
  552. a menu.  If you have a mouse then move the highlighted menu selection using the
  553. mouse and accept your selection by pressing the left mouse button.  The right
  554. mouse button moves you back a menu.
  555.  
  556. Within an Arcus menu you can acess special functions using keys which are not
  557. displayed on the screen:
  558.  
  559. F1 or Alt+H calls up help text that is relevant to the currently highlighted
  560. menu title.
  561.  
  562. Alt+P or Alt+E in the help system or results screens invokes the Arcus screen
  563. editor which can be used to annotate text screens then print them or save them
  564. to the active log file.
  565.  
  566. Alt+N calls up the Arcus notepad on which you can jot down ideas and save them
  567. to the active log file or to the printer.
  568.  
  569. If you are having problems with your mouse then please make sure that you are
  570. using a standard mouse driver such as Microsoft's MOUSE.COM or MOUSE.SYS.  You
  571. do not have to use the mouse driver software which came with your mouse.
  572. Microsoft's MOUSE.COM is supplied on Arcus installation disk one.
  573.  
  574. |P Values|
  575.  
  576. The p value or critical level is the probability of rejecting the null
  577. hypothesis (Ho) when it is true.
  578.  
  579. The null hypothesis is most often the hypothesis of "no difference" e.g. no
  580. difference between mean blood pressure in group A and group B.  This should have
  581. been considered before the start of your study.  If you expect results to be in
  582. one direction only then you have a one tailed test.  More often you can not be
  583. certain that the results can go in one direction only, you must therefore use
  584. a two tailed p value.
  585.  
  586. If your p value is less than the chosen significance level then you reject the
  587. null hypothesis i.e. accept that your sample gives reasonable evidence of a
  588. population difference for the parameters you have observed.  It does NOT imply
  589. a "meaningful" or "important" difference, that is for you to decide when
  590. considering the biological relevance of your result.
  591.  
  592. The choice of significance level at which you reject the Ho is arbitrary.
  593. Traditionally the 5%, 1% and 0.1% (p< 0.05, 0.01 and 0.001) regions have been
  594. used.  These numbers tend to give a false sense of security when in reality
  595. there are many factors which contribute to the arbitrary nature of these levels.
  596. In the ideal world we would be able to define a "perfectly" random sample, the
  597. most appropriate test and one definitive conclusion.  We simply can not.  What
  598. we can do is try to optimise all stages of our research to minimise sources of
  599. uncertainty.  When presenting p values it is good practice to use the asterisk
  600. rating system:
  601.  
  602.               p < 0.05   *
  603.               p < 0.01   **
  604.               p < 0.001  ***
  605.  
  606. Some authors quote statistically significant as p < 0.05 and statistically
  607. highly significant as p < 0.001.  The asterisk system conveys more information
  608. and avoids the woolly term "significant".
  609.  
  610. At this point, a word about error.  Type I error is the false rejection of the
  611. null hypothesis and type II error is the false acceptance of the null
  612. hypothesis.  As an aid memoir: think that our cynical society rejects before
  613. it accepts.
  614.  
  615. The significance level (α) is the probability of type I error.  The power of a
  616. test is one minus the probability of type II error.  Power should be maximised
  617. when selecting statistical methods.  If you want to estimate sample sizes then
  618. you must understand all of the terms I have mentioned here.
  619.  
  620. You might be interested in further details of probability and sampling theory
  621. at this point.  There are a number of good ¬introductory texts╪310834    ¬.
  622.  
  623. You must understand ¬confidence intervals╪31897     ¬ if you intend to quote p values.  You
  624. are encouraged to quote confidence intervals by all good journals.
  625.  
  626. |Confidence Intervals|
  627.  
  628. A confidence interval (CI) for a population parameter is the interval in which
  629. the unknown true population value for this parameter is assumed, with a certain
  630. probability, to lie.  This probability is arbitrary, 95% (0.95) is the most
  631. commonly chosen value.
  632.  
  633. The parameter in question can be a mean, difference between two means, a
  634. proportion etc.  The CI included with each Arcus function is discussed in the
  635. help text for that function.  The interval is often symmetrical about the
  636. parameter but this is not necessarily so.  In some studies wider or narrower
  637. confidence intervals will be required.  This rather depends upon the nature
  638. of your study.  I would advise you to consult a statistician if you plan to
  639. use "non-standard" CI's.
  640.  
  641. A word about terminology:  You will hear the terms confidence interval and
  642. confidence limit used.  The confidence interval is the range Q-X to Q+Y where
  643. Q is our parameter and Q-X is the lower confidence limit and Q+Y is the upper
  644. confidence limit.
  645.  
  646. |Julian Numbers|
  647.  
  648. The Julian period began on January 1st 4713 BC.  The Julian number of a date
  649. represents the number of days since the start of the Julian period.  These
  650. numbers are a useful way of representing dates because the arithmetic difference
  651. between two Julian numbers is the exact number of days between the two dates
  652. they represent.  The Gregorian calendar which we use provides no year zero
  653. between 1 BC and 1 AD, so Julian number 1 corresponds to the 25th of November
  654. 4713 BC.  Please note that you can use BC dates in the worksheet when it is in
  655. date mode but you can not use BC dates in the Arcus database manager.
  656.  
  657. |Statistical Method Selection|
  658.  
  659. This section provides a simple decision tree for selecting statistical methods
  660. appropriate to your data.  Please note that the advice given is only a rough
  661. guide to methods appropriate to your investigation.  Only the simpler
  662. experimental designs are covered.  If you require a fuller appreciation of the
  663. statistical methods that are appropriate to your investigation then you are
  664. strongly advised to consult a reputable text or a statistician.  A common fault
  665. is to read an article which is related to your work and repeat the methods that
  666. have been used by the authors; do not assume that all journals weed out bad
  667. statistical methods!
  668.  
  669. ¬<Measurement Scales>╪34375     ¬
  670. ¬<Essentials>╪21747     ¬
  671. ¬<Analysis>╪77148     ¬
  672. ¬<Reference List>╪310584    ¬
  673.  
  674. |Measurement Scales|
  675.  
  676. Before you plan the statistical approach to your investigation you must
  677. understand the nature of the variables you are studying.  Different variables
  678. have different mathematical characteristics which usually require different
  679. types of analysis.  Please familiarise yourself with the following measurement
  680. scales:
  681.  
  682. INTERVAL
  683. ■ Scale with a fixed and defined interval eg temperature or time.
  684.  
  685. ORDINAL
  686. ■ Scale for ordering subjects from low to high with any ties attributed
  687.   to lack of measurement sensitivity eg. pain score from a questionnaire.
  688.  
  689. NOMINAL with order
  690. ■ Scale for grouping into categories with order eg. mild, moderate
  691.   or severe.  This can be difficult to separate from ordinal.
  692.  
  693. NOMINAL without order
  694. ■ Scale for grouping into unique categories eg. blood group.
  695.  
  696. DICHOTOMOUS
  697. ■ As for 4 but two categories only eg. surgery / no surgery.
  698.  
  699. ¬<Essentials>╪21747     ¬
  700. ¬<Reference List>╪310584    ¬
  701.  
  702. |Data Management|
  703.  
  704. ¬<Arcus Worksheet>╪36264     ¬
  705. ¬<Worksheet files>╪44501     ¬
  706. ¬<ASCII & Lotus link>╪51843     ¬
  707. ¬<Log file editor>╪57897     ¬
  708.  
  709. Most Arcus analyses require data which have been prepared in rows and columns.
  710. This section provides you with a worksheet with which to edit these data and
  711. other functions which import / export data to / from the worksheet.  There is
  712. also a complete database management system which can be used to edit data in
  713. "forms", this is often the easiest approach when processing questionnaire data.
  714.  
  715. If you need to process small numbers of data, such as contingency tables, then
  716. you do not need to enter these data via the worksheet.  All such functions ,
  717. which are listed in the analysis menu under "Instant Functions", ask you for
  718. the data they require after you have selected the function.  These data are
  719. entered directly in response to instructions on the screen.
  720.  
  721.  
  722. |Arcus Worksheet|
  723.  
  724. The Arcus worksheet can be thought of as a computerised sheet of paper which
  725. holds numbers in rows and columns.  This is, however, a rather advanced sheet
  726. of paper with many editing functions and the ability to interpret formulae as
  727. you enter them.
  728.  
  729. Superficially this worksheet resembles many of the well known spreadsheets
  730. but there are some important differences.  Unlike spreadsheets the Arcus
  731. worksheet has been optimised for the preparation of data for statistical
  732. analysis.  It does not hold any character data apart from the column labels.
  733. You may enter formulae in a cell (an individual element of a column) but these
  734. formulae are immediately translated into their numeric results.  If you want to
  735. transform all of the data in a column by applying a formula to them then simply
  736. press Alt+F.  Likewise if you need to create a new column of data as a function
  737. of one or more other columns then you can do so by pressing Alt+Q.
  738.  
  739. The cursor control keys have the following actions in the worksheet:
  740.  
  741. arrow right  -  go one cell to the right
  742. arrow left   -  go one cell to the left
  743. arrow up     -  go one cell up
  744. arrow down   -  go one cell down
  745. home         -  go to top of current column
  746. ctrl + home  -  go to top of the first column
  747. end          -  go to the last entry in the current column
  748. ctrl + end   -  go to the top of the last column which contains data
  749. Alt + G      -  go to the column name of your choice
  750.  
  751. Unlike most spreadsheets the Arcus Worksheet uses the mouse as a pure cursor
  752. locator.  There are no scroll bars to aim at you simply move the cursor using
  753. the mouse and the sheet will shift across if you move past the limit of the
  754. screen.  When you try to move the cursor beyond the limit of the sheet itself
  755. you will see a red "LIMIT" sign flash at the cursor location.  If you try to
  756. move past the right hand limit of the worksheet then you will be asked whether
  757. or not you wish to extend the worksheet by another column.  If there is not
  758. enough memory available to extend the worksheet in this way then the operation
  759. is aborted with a beep.  If you start a new sheet knowing that you require more
  760. than the standard 50 columns then you can extend the worksheet to a specified
  761. number of columns using the ¬Reset Parameters╪50354     ¬ selection of the data management
  762. menu.  The maximum number of columns per worksheet is 1,000 and the row limit
  763. is 25,000.  Please note that resetting the column limit to a small number
  764. increases the maximum size of each column.
  765.  
  766. Numbers are entered in the worksheet by pressing any combination of
  767. alphanumeric keys followed by the enter key.  You can enter numbers or formulae
  768. at the cell editing line.  For example 8/SQR(16) would put the solution 2 into
  769. that cell.  These formulae are for instant interpretation only, you can not
  770. embed them in a cell of the worksheet and you can not use other cell locators
  771. (e.g. A1 for column 1 row 1) as used by most spreadsheets.  The functions which
  772. the cell editor can interpret are listed below and this information is available
  773. in a help screen which is invoked by pressing the F1 key when you are editing
  774. a cell.
  775.  
  776. Constants:      PI
  777.                 EE as e
  778.  
  779. ABS             absolute value
  780. CLOG            common (base 10) logarithm
  781. CEXP            anti log (base 10)
  782. EXP             anti log (base e)
  783. LOG             natural (base e, Naperian) logarithm
  784. SQR             square root
  785. !               factorial (max 34)
  786. LN!             log factorial
  787. IZ              normal deviate for a p value
  788. UZ              upper tail p for a normal deviate
  789. LZ              lower tail p for a normal deviate
  790. ^               exponentiation (to the power of)
  791. +               addition
  792. -               subtraction
  793. *               multiplication
  794. /               division
  795. \               integer division
  796.  
  797. ARCCOS          arc cosine
  798. ARCCOSH         arc hyperbolic cosine
  799. ARCCOT          arc cotangent
  800. ARCCOTH         arc hyperbolic cotangent
  801. ARCCSC          arc cosecant
  802. ARCCSCH         arc hyperbolic cosecant
  803. ARCTANH         arc hyperbolic tangent
  804. ARCSEC          arc secant
  805. ARCSECH         arc hyperbolic secant
  806. ARCSIN          arc sine
  807. ARCSINH         arc hyperbolic sine
  808. ATN             arc tangent
  809. COS             cosine
  810. COT             cotangent
  811. COTH            hyperbolic cotangent
  812. CSC             cosecant
  813. CSCH            hyperbolic cosecant
  814. SINH            hyperbolic sine
  815. SECH            hyperbolic secant
  816. SEC             secant
  817. TAN             tangent
  818. TANH            hyperbolic tangent
  819. AND             logical AND
  820. NOT             logical NOT
  821. OR              logical OR
  822. <               less than
  823. =               equal to
  824. >               greater than
  825.  
  826.  
  827. If you enter a cell in a column which has empty cells above the current
  828. location then the gaps above are automatically filled with missing data values.
  829.  
  830. The worksheet editing mode is indicated by a "Norm" or "Date" sign at the top
  831. left hand corner.  The date editing mode allows you to enter conventional dates
  832. in the European day/month/year format.  These entries are stored as Julian
  833. integers in the worksheet but the highlighted cursor location always shows the
  834. conventional date interpretation of the Julian number.  Please note that the
  835. difference between two Julian numbers is the exact number of days between the
  836. two dates from which these numbers are derived.
  837.  
  838. The saving and loading of worksheet data to/from disk takes place outside the
  839. worksheet itself.  You will see the relevant functions listed in the data
  840. management menu under ¬Worksheet Files╪44501     ¬.
  841.  
  842. Labelling of columns is achieved using the key combination Alt+N or Alt+L.
  843.  
  844. Other special keys which are active in the worksheet are:
  845.  
  846. F1         help screen
  847.  
  848. Alt+I      insert a cell at the current cursor location
  849. Alt+C      insert a column at the current cursor location
  850. Alt+D      delete the cell at the current cursor location
  851. Del        delete the cell at the current cursor location
  852. Alt+X      delete the current column
  853. Alt+Z      delete the current row
  854.  
  855. Alt+N      enter or edit a column name
  856.            {When you are editing column names you can press TAB / Shift+TAB
  857.            to move directly to the next / previous column name.}
  858.  
  859. Alt+B      copy a block from the current column to another column
  860.  
  861. Alt+T      toggle between normal and date editing mode
  862.  
  863. Alt+P      print all rows of selected columns
  864.  
  865. Alt+S      display current column statistics
  866.  
  867. Alt+G      go to a selected column
  868.  
  869. Alt+F      apply a formula to the current column
  870. Alt+R      put ¬random numbers╪254271    ¬ into the current column
  871. Alt+F      apply a formula to the current column
  872. Alt+Q      make a new column as a function of other columns
  873.  
  874. Space bar  enter a missing data value (3.456789E+33 displayed as *)
  875.  
  876. As in most of Arcus the mouse buttons emulate the enter and escape keys.  Thus
  877. the right mouse button (Esc) exits the worksheet and the left mouse button
  878. (Enter) accepts any data you have typed at the current cell then moves down a
  879. cell.  Some spreadsheets move the cursor to the right when you press enter but
  880. Arcus moves down.  This is quite deliberate as most people prefer to enter
  881. numeric data in columns not rows.
  882.  
  883. A word about indicator variables.  Arcus uses indicator variables for survival
  884. analysis.  All other functions require you to provide data from different
  885. groups in different columns.  Some stats packages such as SAS use a column of
  886. 1's, 2's etc to indicate which group the entry in that row of the data column
  887. belongs to.  This is the indicator variable system which Arcus uses for
  888. survival analysis.  All other functions ask you for a separate column of data
  889. for each group.
  890.  
  891. Arcus uses 3.456789E+33 as its missing data value and in all instances this is
  892. displayed as an asterisk (*).  This is an internal constant which you do not
  893. need to remember, a cell within the spreadsheet is marked as a missing
  894. observation by pressing the space bar.  In subsequent calculations these values
  895. are skipped and all values in a row containing a missing data value are skipped
  896. if the variables are grouped, e.g. matched pairs.
  897.  
  898. |Worksheet Files|
  899.  
  900. This section enables you to retrieve worksheet data which have been stored on
  901. disk using the ¬Save Worksheet╪47791     ¬ function of this menu.
  902.  
  903. The standard location for Arcus worksheet files is a sub-directory called \DATA\
  904. off your Arcus directory.  If the standard setup has been used for an Arcus
  905. installation on drive C then the full data file path is C:\ARCUS\DATA.  Arcus
  906. worksheet files do not use any special extension (the letters after the point
  907. in the file name).  You can use any naming system you want.  These worksheet
  908. files also have a very simple structure, they are stored in ASCII text.  This
  909. simple structure has the benefit of enabling other developers to read and write
  910. Arcus worksheet files easily.  This allows other applications, such as custom
  911. databases, to select data for export then write them into an Arcus file.
  912.  
  913. If you are a developer then please see ¬Developer's Notes╪15349     ¬ for more information
  914. about the Arcus worksheet file structure.
  915.  
  916. You can load more than one worksheet file from disk into the current worksheet.
  917. This enables very large worksheets to be created from a number of smaller ones.
  918. The process is ultimately limited by the column limit of 1,000 or the amount of
  919. memory your computer has free.
  920.  
  921. If you want to change the standard data file location then please see ¬Setup╪9267      ¬.
  922.  
  923.  
  924. |Arcus File Finder|
  925.  
  926. Arcus uses the following protocol to search through disks for files.  You are
  927. shown a list of titles which you can select using the cursor keys and enter key
  928. or by using the mouse.  Disk drives, directories, sub-directories and files are
  929. displayed differently:
  930.  
  931. [-A-]           <----this moves you to drive A
  932. [-B-]
  933. [\ARCUS]        <----this moves you to directory \ARCUS
  934. [\DOS]
  935. IO.SYS
  936. AUTOEXEC.BAT
  937. CONFIG.SYS
  938.  
  939. if we select <ARCUS> then <DATA> you might see:
  940.  
  941. [..]            <----this moves you back to the directory \ARCUS
  942. MYDATA
  943. RAT1
  944. SURVEY2         <----this selects the file SURVEY2
  945.  
  946.  
  947. Please note that you can jump to files beginning with a certain letter by
  948. pressing that letter on the keyboard when the file list is displayed.
  949.  
  950. |Arcus Data File Path|
  951.  
  952. This function enables you to select a worksheet file which has been stored in
  953. the standard Arcus data file location.  If you installed Arcus on drive C
  954. using the default paths then this location will be C:\ARCUS\DATA.
  955.  
  956. The files are presented to you in alphabetical order.  If there are many files
  957. to sift through then press the first letter of the file name you are looking
  958. for.  This causes the selection bar to jump to files beginning with that letter.
  959. The mouse can also be used to select files.  The left hand mouse button or the
  960. enter key makes the selection.  The Esc key or the right hand mouse button
  961. quits the file selector without loading a file.
  962.  
  963. ¬<Arcus File Finder>╪45889     ¬
  964. ¬<Data File Path>╪10092     ¬
  965.  
  966. |Select Path|
  967.  
  968. This function enables you to bypass the standard Arcus data file location and
  969. specify your own path to a worksheet file.  This situation might arise when you
  970. have a particular file on floppy disk.  To examine the contents of a file in
  971. drive A just enter the path A:\.
  972.  
  973. ¬<Arcus File Finder>╪45889     ¬
  974. ¬<Data File Path>╪10092     ¬
  975.  
  976. |Save Worksheet|
  977.  
  978. This function enables you to save all of the data in the worksheet to a file on
  979. disk.  You are asked to specify the name of this file.  No special extensions
  980. are added to this name and you can use your own extension if you wish.  Try to
  981. adopt a simple naming system which you can recognise easily.  Please note that
  982. you are presented with file names listed in alphabetical order when you come to
  983. recall worksheet files from disk.
  984.  
  985. The location for storage of worksheet files is also under your control.  Arcus
  986. prompts you with the standard data storage path defined when you installed Arcus
  987. e.g. C:\ARCUS\DATA.  If this is acceptable then just press the enter key.  If
  988. you wish to divert this file, say to a floppy disk, then type in the relevant
  989. path e.g. A:\ for the A drive.  If you want to change the standard data storage
  990. path then you can do so via ¬setup╪9267      ¬.
  991.  
  992. Arcus saves its worksheet files using a very simple text file structure.  This
  993. allows software developers to read and write Arcus data files easily.  If you
  994. are a developer then please refer to ¬developer's notes╪15349     ¬.
  995.  
  996. A full description of each worksheet, up to 150 characters, can be added to
  997. each file.  You are prompted for this, just press enter if it is not required.
  998.  
  999. If you change your worksheet and forget to save it then you will be prompted to
  1000. do so on finishing the current Arcus session.
  1001.  
  1002. |Save Rotated Worksheet|
  1003.  
  1004. This is a special function for those who wish to rotate an Arcus worksheet.
  1005.  
  1006. Example:
  1007.      1..   2..   3..
  1008. 1    1.1   0.7   1
  1009. 2    1.5   0.6   2
  1010. 3    1.6   0.6   3
  1011. 4    1.8   0.5   4
  1012.  
  1013. ...this would become:
  1014.  
  1015.      1..   2..   3..    4..
  1016. 1    1.1   1.5   1.6    1.8
  1017. 2    0.7   0.6   0.6    0.5
  1018. 3    1     2     3      4
  1019.  
  1020. ... in other words rows become columns and columns become rows.
  1021.  
  1022. The file extension ".ROT" is appended to your file name.  Column names are lost.
  1023.  
  1024. |Current Status|
  1025.  
  1026. This function simply displays information concerning the current worksheet and
  1027. the free memory state of your computer.  The latter represents the number of
  1028. kilobytes of memory which Arcus can use for data storage and processing.
  1029.  
  1030. The time and date displays depend upon you having set these parameters properly.
  1031. To change your computer's time or date, just shell out to DOS and enter them
  1032. using TIME and DATE commands.  Note that times are entered as 14:30:00 and dates
  1033. are entered as 09-12-93.  If your computer is not maintaining times and dates
  1034. then its backup battery is probably flat.
  1035.  
  1036. |Reset Parameters|
  1037.  
  1038. This section provides you with the ability to wipe clean the current worksheet.
  1039. For this reason you must be careful with these functions!
  1040.  
  1041. "New Worksheet (50 columns)"
  1042. This first selection simply wipes the worksheet leaving an empty 50 column
  1043. sheet.
  1044.  
  1045. "New Worksheet (user defined columns)"
  1046. This second selection wipes the current worksheet and you select the column
  1047. limit for the new worksheet.  There are two main reasons for setting the
  1048. column limit.  The first is when you know that you will need more than 50
  1049. columns and you do not want to be prompted to extend the sheet each time you
  1050. try to pass the column limit.  Secondly you might need a very long column
  1051. length on a computer with limited memory.  To maximise column length in this
  1052. situation you must select a small column limit.  The absolute maxima are 1,000
  1053. columns and 25,000 rows.
  1054.  
  1055. "Reset Printer"
  1056. This selection enables you to reset the printer line counter.  If you have a
  1057. Laserjet or PostScript printer then this is automatically resets the printer
  1058. as well as the line counter within Arcus.  If you have any other line printer
  1059. then you will need to align new paper to the top row before you continue.  The
  1060. function basically tells Arcus that you are starting over at a the top line.
  1061. The next page break will happen when the page length is exceeded.  If you need
  1062. more information about setting up your printer for Arcus then please refer to
  1063. the ¬setup╪9267      ¬ section.
  1064.  
  1065. |ASCII & Lotus link|
  1066.  
  1067. ¬<Plain ASCII file import>╪54064     ¬
  1068. ¬<Formatted ASCII file import>╪55002     ¬
  1069. ¬<Lotus compatible ASCII file export>╪55544     ¬
  1070. ¬<Lotus compatible WK? file import>╪52500     ¬
  1071.  
  1072. This section deals with the transfer of data between Arcus and other
  1073. applications.  Specifically, the import of data from ASCII text files and Lotus
  1074. compatible spreadsheets and the export of data to spreadsheets.  Please note
  1075. that data can also be imported from database files using the ¬Database Manager╪59749     ¬.
  1076.  
  1077. If you are a developer wishing to read and write Arcus worksheet files then
  1078. please see ¬Developer's Notes╪15349     ¬.
  1079.  
  1080. |Lotus Compatible WK? File Import|
  1081.  
  1082. Arcus can read binary spreadsheet files which are compatible with Lotus 123
  1083. WKS or WK1 files.  Applications such as Quattro, Excel and Symphony can export
  1084. these files providing you specify the correct file format. Borland's Quattro
  1085. automatically produces Lotus compatible files when you save a worksheet with
  1086. the .WKS or .WK1 file extension (do not use .WKQ).
  1087.  
  1088. One proviso is that you must use column labels in your original spreadsheet.
  1089. Arcus uses column labels to identify where columns begin.  Once the spreadsheet
  1090. file has been read by Arcus you are given a list of column labels which have
  1091. been found.  You then simply select the columns you wish to bring across as
  1092. Arcus worksheet columns.  The label each column had in the spreadsheet is
  1093. maintained in the Arcus worksheet.  Things can get a bit slow with large
  1094. spreadsheets therefore it is better have the spreadsheet (WK?) file on hard
  1095. disk not floppy disk.
  1096.  
  1097. Gaps within a spreadsheet column are interpreted as missing data.  Gaps at the
  1098. end of a spreadsheet column are not interpreted unless you enter a missing data
  1099. value (3.456789E33) at the end of the column.  The column label must be no more
  1100. than one gap away from the top of the column of numeric data.  If you need a
  1101. larger gap at the top of a column then you must enter the Arcus missing data
  1102. value (3.456789E33) at this position in the spreadsheet.
  1103.  
  1104. Please note that all columns are transferred individually and are appended to
  1105. the current worksheet if you have data there already.
  1106.  
  1107. |Plain ASCII File Import|
  1108.  
  1109. Plain ASCII file describes a simple text file which does not use any special
  1110. characters or codes for formatting.  Such a file might be produced by a database
  1111. report generator or a simple text processor.  This Arcus function enables you
  1112. to pick out columns of numbers from such a file and load them into the current
  1113. worksheet.
  1114.  
  1115. Please use only plain text in these files, tabs and other formatting characters
  1116. make it difficult to define columns.
  1117.  
  1118. You pick out columns of numbers by selecting start, width and end points on the
  1119. screen.  For this purpose Arcus displays the text file on screen.  If your file
  1120. is greater than 80 columns then you are asked to define which horizontal
  1121. section of the file you wish to search.  Gaps or non-numeric text are treated
  1122. as missing data.
  1123.  
  1124. Importing data in this way can be quite irksome, therefore, you should
  1125. consider other methods for frequent imports.
  1126.  
  1127. |Formatted ASCII File Import|
  1128.  
  1129. Some applications output data in text files which use spaces or commas to
  1130. delimit data.  One such application is FigP.
  1131.  
  1132. Consider the file:
  1133.  
  1134. 1.2,1.3,8
  1135. 1.5,1,8
  1136. 1.7,1.0,9
  1137. 1.7,1.5,10
  1138.  
  1139. ..this would import into an Arcus worksheet as:
  1140.  
  1141.     1...     2...     3...
  1142.  
  1143. 1   1.2      1.3      8
  1144. 2   1.5      1        8
  1145. 3   1.7      1        9
  1146. 4   1.7      1.5      10
  1147.  
  1148.  
  1149. NB Do NOT use spaces AND commas to separate your data, use EITHER commas OR
  1150. spaces!.  Do NOT use column titles in the text file.
  1151.  
  1152. |Lotus Compatible ASCII File Export|
  1153.  
  1154. All good spreadsheets can read comma and quote delimited text files.  Column
  1155. titles are contained within quotes and numeric data are separated by commas.
  1156.  
  1157. Consider the text file:
  1158.  
  1159. "Age","Urea","Creatinine"
  1160. 65,6.5,101
  1161. 23,3.4,65
  1162. 44,4,80
  1163.  
  1164. ..this would export to a spreadsheet as:
  1165.  
  1166.     Age      Urea     Creatinine
  1167.  
  1168. 1   65       6.5      101
  1169. 2   23       3.4      65
  1170. 3   44       4        80
  1171.  
  1172.  
  1173. Arcus does not export WK1, WKS, WKQ or any other binary spreadsheet files
  1174. because there is no point when all good spreadsheets can read these simple
  1175. portable comma and quote delimited text files.
  1176.  
  1177. |Select Data|
  1178.  
  1179. This function enables you to select data from a worksheet column which meet
  1180. certain criteria that you define.  It also enables you to pick out selected
  1181. data and change them.  There are two basic uses of this function which we
  1182. shall look at by example:
  1183.  
  1184. 1.  Aim:
  1185.     To select all patients over 65 and their serum creatinines.
  1186.  
  1187.     Source:
  1188.     A column of ages and a column of creatinines from a group of 100 patients.
  1189.  
  1190.     Action:
  1191.     a.  Select from column AGE.
  1192.         Match from column CREATININE.
  1193.         Expression is >65.
  1194.         Choose "create new variable".
  1195.  
  1196.     b.  Select from column AGE.
  1197.         Match from column AGE.
  1198.         Expression is >65.
  1199.         Choose "create new variable".
  1200.  
  1201.     Result:
  1202.     Two new columns have been appended to the worksheet, one with ages over 65
  1203.     and another with creatinine values for all the over 65's which match the
  1204.     ages in the other new column.
  1205.  
  1206.  
  1207. 2.  Aim:
  1208.     To replace certain values in a worksheet column.  You might need this if
  1209.     you have imported data from an application which uses a different missing
  1210.     data value to Arcus.
  1211.  
  1212.     Source:
  1213.     Any column with unwanted data.
  1214.  
  1215.     Action:
  1216.     Select from this column.
  1217.     Choose "replace values".
  1218.     Specify the value to replace (eg -999).
  1219.     Specify the value to replace it with (eg 3.456789E33 the Arcus missing data
  1220.     value).
  1221.  
  1222.     Result:
  1223.     All -999's become 3.456789E33 (* in the Arcus worksheet ie missing data).
  1224.  
  1225.  
  1226. Please note that the Arcus Database Manager can also be used to select out data
  1227. before you import it to the Arcus worksheet.  For more information on this
  1228. please see ¬Record Selection╪69953     ¬.
  1229.  
  1230. |Log File Editor|
  1231.  
  1232. If you use the Arcus screen editor (invoked by pressing P or E) and choose the
  1233. "save to log file" option (F2) then you will have a log file for that Arcus
  1234. session saved in the Arcus data sub-directory.  Each new Arcus session uses a
  1235. separate log file name, this is composed of the day, the month and the number
  1236. of the Arcus session on that day, i.e. 1201_3.LOG would be the log file from
  1237. the third Arcus session in which a log file was used on the twelfth of January.
  1238.  
  1239. This function provides a simple text editor with which you can examine and edit
  1240. the content of any text file.  It also enables you to send this text to a
  1241. printer.  If you require more powerful editing functions then please use your
  1242. familiar word processor.  Note that you can run your word processor within Arcus
  1243. by shelling out to DOS, there is no need to finish your current Arcus session.
  1244.  
  1245. The cursor location in the Arcus log file editor can be controlled using the
  1246. cursor keys or the mouse and the left mouse button.  The right mouse button and
  1247. the Esc key quit the editor.  The editor accepts standard key combinations:
  1248.  
  1249. Ctrl+N                Insert a line
  1250. Ctrl+Y                Delete a line
  1251. Ctrl+P                Embed a character
  1252. Ctrl+Page Up          Move to top of text
  1253. Ctrl+Page Down        Move to bottom of text
  1254.  
  1255. If you want to enter a character which is not represented on your keyboard then
  1256. you can do so by holding down the left Alt key whilst tapping out the ASCII code
  1257. of that character on the right hand number pad (if present).  For example, the
  1258. code Alt + 224 gives the letter alpha.  A list of these decimal codes is given
  1259. under ¬<ASCII Codes>╪294887    ¬.
  1260.  
  1261. If you intend to import Arcus log files into word processing software, try to
  1262. specify small font sizes so that you avoid unwanted parsing of lines.
  1263.  
  1264. Arcus |Database Manager|
  1265.  
  1266. This provides a facility for creating and maintaining databases which are file
  1267. compatible with dBase III plus, dBase IV, dBXL/Quicksilver, FoxPro, FoxBase or
  1268. Clipper.  It also enables you to import database fields as Arcus variables.
  1269.  
  1270. Help prompts are provided in addition to the hypertext help which is invoked
  1271. by pressing the F1 key.  Help menus are also available via the F1 key within
  1272. most functions.  If you have even a vague idea of how databases work then you
  1273. will find this part of Arcus Pro-Stat intuitively simple.  If you are not
  1274. familiar with database management systems then you may wish to read
  1275. "¬Data-Basics╪74457     ¬".
  1276.  
  1277. One notation convention which you should be aware of is the caret sign ^
  1278. followed by a key, this indicates that a combination of the Ctrl key plus that
  1279. key should be pressed (i.e. ^Home is Ctrl + Home).
  1280.  
  1281. For information about supported file structures, limits, record selection and
  1282. other technical data then please refer to the ¬Database Technical Information╪66897     ¬
  1283. section.
  1284.  
  1285. If you need to maintain complex multi-relational databases with elaborate
  1286. reporting systems then you should select one of the dedicated database
  1287. management systems and use the Arcus Database Manager as a link between this
  1288. and the Arcus Worksheet.  Please make sure that your database manager can
  1289. export files which are readable by Arcus.  Most database managers can export
  1290. files in different formats.  The database file formats which Arcus can read are
  1291. dBASE III, dBASE IV, FoxPro, FoxBase, dBXL/Quicksilver and Clipper.
  1292.  
  1293. |Open Database File|
  1294.  
  1295. The first step in using this database manager is to open or create then open
  1296. a database file.  Arcus searches for files with the DBF extension and displays
  1297. summary information about each compatible database file in the chosen sub-
  1298. directory.  The database file types which can be handled by this database
  1299. manager are dBASE III, dBASE IV, FoxPro, FoxBase, dBXL/Quicksilver and Clipper.
  1300.  
  1301. ¬<Create New Database File>╪64240     ¬
  1302. ¬<Arcus File Finder>╪45889     ¬
  1303.  
  1304. |Open Index File|
  1305.  
  1306. This function allows you to open an index file which has been made for the
  1307. database file which is open.  Arcus searches for index files with the NDX
  1308. extension and displays summary information about each compatible index file in
  1309. the chosen sub-directory.  The index file types which can be handled by this
  1310. database manager are dBASE III, dBASE IV, FoxPro, FoxBase, dBXL/Quicksilver
  1311. and Clipper.
  1312.  
  1313. ¬<Index or Re-Index Database File>╪65035     ¬
  1314. ¬<Arcus File Finder>╪45889     ¬
  1315.  
  1316. |Copy Data to Another File|
  1317.  
  1318. This function enables you to make new database files or new Arcus Worksheet
  1319. files from records in the active database file.  Both of these links allow you
  1320. to be selective in the choice of records and the fields from each of these
  1321. records which you copy to the new file.  Please note that field names will be
  1322. transferred to Arcus data files as worksheet column (variable) labels.
  1323.  
  1324. |Browse and Edit Database|
  1325.  
  1326. The browse & edit option presents your database in a worksheet format with
  1327. fields as columns and records as rows.  You can use this option to inspect
  1328. and edit the existing records of the active database file.  Please note that
  1329. an index file for the active database will be updated when you edit records
  1330. provided it has been opened, any other inactive index files on disk will not
  1331. be updated.  If you have several widely spaced fields to edit then you should
  1332. use the rearrange fields option to collect these fields onto one screen before
  1333. editing.  If you wish to replace or remove records then please use the delete
  1334. marker in the browse & edit function followed by the remove deleted records
  1335. function within the pack/purge records option.  If you wish to add new records
  1336. then please use the append records option.
  1337.  
  1338. |Append New Records|
  1339.  
  1340. This function enables you to load data into the active database file.  The enter
  1341. key is used to confirm the input for a particular field but you must use F3 to
  1342. accept the entire record and move onto the next.  Familiarity with the function
  1343. keys will facilitate easy use of this function.
  1344.  
  1345. Please note that the date entry format is DD/MM/YY(YY) but a date is stored as
  1346. YYYYMMDD in the database file.  It is the YYYYMMDD format which is displayed in
  1347. the "browse & edit function".  If you use the "copy data to another file"
  1348. function then all dates will be translated into Julian numbers.
  1349.  
  1350. |Create New Database File|
  1351.  
  1352. The first stage in making a new database file is to create a template using this
  1353. function.  This template defines how your data will be stored in the database
  1354. file on disk.  If you specify very large fields then the database manager will
  1355. allocate more disk space per record.  This can lead to much disk space being
  1356. gobbled up by wasted space, please consider this when defining fields.  Arcus
  1357. supports dBASE III, dBASE IV, FoxPro, Clipper, FoxBase and dBXL/QuickSilver
  1358. database file formats.  Some formats permit larger field sizes and/or number
  1359. of fields per record, please see "¬Database Technical Information╪66897     ¬" for more
  1360. details about this.
  1361.  
  1362. N.B. To make a new database active you must next select it via the "Open
  1363. Database File" option.
  1364.  
  1365. |Index or Re-Index Database File|
  1366.  
  1367. You can use index files with all Arcus database files.  Index files define how
  1368. you look at the records in your active database file.  One database file may
  1369. have many index files so that you can look at records in different orders and
  1370. separately.  For example, if you had an age field in your database file you
  1371. could use an index file based on all records to display them in age order.
  1372. You could also select only those records falling within a certain age range.
  1373. Please note that you must renew the index file each time you edit the parent
  1374. database file, this is done via the create index file option.  Once you have
  1375. created an index file you must use the "select index file" function in order
  1376. to make it active.
  1377.  
  1378. |Modify Database Structure|
  1379.  
  1380. This function enables you to add, remove, shorten, lengthen or rename the
  1381. fields of an existing database file.  It then refills the redefined file
  1382. structure with the records from the original database file.  Field data is
  1383. truncated or padded as necessary.  Please be careful not to loose data by
  1384. imprudent use of this function.  It is wise to make a copy of your original
  1385. database file via the "copy data..." option before experimenting with this
  1386. option.  Arcus does, however, make a backup file (name.bak) of your original
  1387. database file (name.dbf) when performing this function.
  1388.  
  1389. |Pack or Purge Records|
  1390.  
  1391. This function will compact an existing database file so that it takes up less
  1392. disk space and can be read more efficiently.  The purge procedure removes all
  1393. records which have been marked as deleted so please use it with caution.
  1394.  
  1395. |Print Report|
  1396.  
  1397. This option enables you send selected database fields and records to a printer.
  1398.  
  1399. The target printer port and the number of lines per page are defined via the
  1400. setup menu in the main Arcus module.
  1401.  
  1402. |Database Technical Information|
  1403.  
  1404. ¬<Record Selection Functions>╪69953     ¬
  1405.  
  1406. Limits
  1407. ~~~~~~
  1408. Maximum file size = 4.2 billion bytes
  1409.  
  1410. Record limits depend upon the file type selected:
  1411.  
  1412. --> dBASE III/III+
  1413.  
  1414. max record length: 4095
  1415. max no of fields:  128
  1416. field types: character  1-254
  1417.              numeric    1-19   (0 to 15 decimal places)
  1418.              logical    1
  1419.              date       8
  1420.              memo       10
  1421.  
  1422.  
  1423. --> dBASE IV
  1424.  
  1425. max record length: 4000
  1426. max no of fields:  255
  1427. field types: character  1-254
  1428.              numeric    1-20 (0 to field length-2 decimal places)
  1429.              floating   1-20 (0 to field length-2 decimal places)
  1430.              logical    1
  1431.              date       8
  1432.              memo       10
  1433.  
  1434.  
  1435. --> FoxPro 1.0/2.0
  1436.  
  1437. max record length: 4000
  1438. max no of fields:  255
  1439. field types: character  1-254
  1440.              numeric    1-20 (0 to field length-2 decimal places)
  1441.              floating   1-20 (0 to field length-2 decimal places)
  1442.              logical    1
  1443.              date       8
  1444.              memo       10
  1445.  
  1446.  
  1447. --> Clipper '87 5.0
  1448.  
  1449. max record length: 8192
  1450. max no of fields:  1023
  1451. field types: character  1-2048
  1452.              numeric    1-30 (0 to 13 decimal places)
  1453.              logical    1
  1454.              date       8
  1455.              memo       10
  1456.  
  1457.  
  1458. --> dBXL, QuickSilver
  1459.  
  1460. max record length: 4000
  1461. max no of fields:  512
  1462. field types: character  1-254
  1463.              numeric    1-19 (0 to 15 decimal places)
  1464.              logical    1
  1465.              date       8
  1466.              memo       10
  1467.  
  1468.  
  1469. --> FoxBase 1.0/2.0
  1470.  
  1471. max record length: 4000
  1472. max no of fields:  128
  1473. field types: character  1-254
  1474.              numeric    1-19 (0 to 15 decimal places)
  1475.              logical    1
  1476.              date       8
  1477.              memo       10
  1478.  
  1479.  
  1480. Date entry
  1481. ~~~~~~~~~~
  1482. Please note that ArcusDB stores date fields in the format YYYYMMDD without any
  1483. separators.  This format is used in the browse & edit and print report sections.
  1484. The append records section, however, uses the DD/MM/Y(YYY) format to accept
  1485. initial input of dates; the Arcus worksheet uses this date entry system also.  ArcusDB
  1486. does NOT convert dates to Julian numbers for the database files but does convert
  1487. them to Julian numbers when you export them as an Arcus worksheet file as this
  1488. is the date storage format in the Arcus worksheet.
  1489.  
  1490.  
  1491. Using Arcus Database Manager Independently
  1492. ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
  1493. The database module is designed to be called from the Arcus data management
  1494. menu but it can be run without the main Arcus module.  If you wish to run it
  1495. independently then you must supply some parameters at the command line:
  1496. ARCUSDB /?a/0/?b/?c/0/?d/ where ?a is the data storage path
  1497. (e.g. C:\ARCUS\DATA\)-(NB DO NOT forget the last back slash here), ?b is the
  1498. printer port (e.g. 1), ?c is the number of lines which your printer fits on one
  1499. page (e.g. 64) and ?d is the mouse sensitivity (e.g. 30).  This can be put into
  1500. a batch file.  Further details are available on request.
  1501.  
  1502. |Record Selection Functions|
  1503.  
  1504. Where S = string, N = Numeric, L = logical, D = Date:
  1505.  
  1506. ABS(N)              absolute value
  1507.                     {ABS(5-11) is 6 not -6}
  1508.  
  1509. ASC(S)              ASCII value of first character
  1510.                     {ASC("Abacus") is 65}
  1511.  
  1512. AT(S1, S2)          character position of S2 within S1
  1513.                     {AT("Hello World", "or") is 8}
  1514.  
  1515. CAPS(S)             capitalise the first letter of each word
  1516.                     {CAPS("GOOD DAY") is "Good Day"}
  1517.  
  1518. CHR(N)              ASCII character
  1519.                     {CHR(65) is "A"}
  1520.  
  1521. DATE$               current system date
  1522.  
  1523. DELETED()           returns "T" if record is deleted
  1524.                     (i.e. asterisk as first character) and "F" if it is not)
  1525.  
  1526. IIF(X1, X2, X3)     returns X2 if X1 is true else returns X3
  1527.                     {IIF(AGE>=65, "Ger", "Med") is "Ger" for age=78}
  1528.  
  1529. INSTR(N, S1, S2)    character position of S2 within S1 starting at N
  1530.                     {INSTR(5, "Hello World", "l") is 10}
  1531.  
  1532. INT(N)              rounded down to the nearest integer
  1533.                     {INT(3.5) is 3)
  1534.  
  1535. JULIAN(D)           returns the julian number of the date;
  1536.                     this number is in character format
  1537.  
  1538. LEFT(S, N)          left N characters of S
  1539.                     {LEFT("Pioneer", 2) is "Pi"}
  1540.  
  1541. LEN(S)              length if S
  1542.                     {LEN("Pioneer") is 7}
  1543.  
  1544. LOWER(S)            lower case
  1545.                     {LOWER("HELLO") is hello}
  1546.  
  1547. LPAD(S1, N, S2)     pad S1 to N characters with S2 at the left
  1548.                     {LPAD("Hello", 12, "H") is "HHHHHHHHello"}
  1549.  
  1550. LTRIM(S)            cut leading blanks
  1551.                     {LTRIM("  Here ") is "Here "}
  1552.  
  1553. MAX(N1, N2)         maximum of N1 and N2
  1554.                     {MAX(21, 21.01) is 21.01}
  1555.  
  1556. MID$(S, N1, N2)     extract N2 characters from S starting at N1
  1557.                     {MID$("Hello",2,1) is "e"}
  1558.  
  1559. MIN(N1, N2)         minimum of N1 and N2
  1560.                     {MIN(21, 21.01 is 21}
  1561.  
  1562. RECNO()             current record number
  1563.  
  1564. RECORD()            full content of current record in one string
  1565.  
  1566. REPLICATE(S, N)     N replicates of S
  1567.                     {REPLICATE(".", 3) is "..."}
  1568.  
  1569. RIGHT(S, N)         right N characters of S
  1570.                     {RIGHT("Pioneer", 2) is "er"}
  1571.  
  1572. RPAD(S1, N, S2)     pad S1 to N characters with S2 at the right
  1573.                     {LPAD("Hello", 12, "*") is "Hello*******"}
  1574.  
  1575. RTRIM(S)            cut trailing blanks
  1576.                     {LTRIM("  Here ") is "  Here"}
  1577.  
  1578. SPACE(N)            N blanks
  1579.                     {SPACE(3) is "   "}
  1580.  
  1581. STRING$(N, S/N)     N repetitions of S or ASCII(N)
  1582.                     {SRING$(3, 88) is "XXX")
  1583.  
  1584. STR(N1, N2, (N3))   string of N1 of length N2 with N3 decimal places
  1585.                     {STR(2.341, 6, 4) is 2.3410}
  1586.  
  1587. SUBSTR(S,N1,N2)     extract N2 characters from S starting at N1
  1588.                     {SUBSTR("Hello",2,2) is "el"}
  1589.  
  1590. TIME()              eight character string of current time
  1591.  
  1592. TRIM(S)             strip leading and trailing blanks
  1593.                     {TRIM("  Here ") is "Here"}
  1594.  
  1595. UPPER(S)            convert to upper case
  1596.                     {UPPER("Hello") is "HELLO"}
  1597.  
  1598. VAL(S)              numerical value of string
  1599.                     {VAL("34") is 34.0}
  1600.  
  1601. Record Selection Operators
  1602. ~~~~~~~~~~~~~~~~~~~~~~~~~~
  1603. =        equal to
  1604. <>       not equal to
  1605. <        less than
  1606. >        greater than
  1607. >=       greater than or equal to
  1608. <=       less than or equal to
  1609.  
  1610. Boolean Operators
  1611. ~~~~~~~~~~~~~~~~~
  1612. .AND.    true if both expressions are true
  1613. .OR.     true if one expression is true
  1614. .NOT.    opposite truth of expression
  1615.  
  1616.  
  1617. Concatenation Symbols
  1618. ~~~~~~~~~~~~~~~~~~~~~
  1619. +        combine expression
  1620. -        subtract expression
  1621.  
  1622. Literals
  1623. ~~~~~~~~
  1624.  
  1625. []       explicit expression not a field name
  1626.  
  1627.  
  1628. Examples
  1629. ~~~~~~~~
  1630. .NOT. PAID
  1631. - gives records where the logical field paid is false (F/N)
  1632.  
  1633. PAID .AND. AGE < 30
  1634. - gives records where the logical field paid is true (T/Y) for ages under 30
  1635.  
  1636. AGE >= 25 .AND. AGE < 30
  1637. - gives records for the age 25 to 30 range where age is a numeric field.
  1638.  
  1639. VAL(AGE) >= 25 .AND. VAL(AGE) < 30
  1640. - gives records for the age 25 to 30 range where age is a character field.
  1641.  
  1642. MID$(UPPER(NAME), 1, 1) = "A"
  1643. - gives records where name begins with the letter A.
  1644.  
  1645. ASC(MID$(UPPER(NAME), 1, 1)) >= 65 .AND. ASC(MID$(UPPER(NAME), 1, 1)) < 73
  1646. - gives records with names from A to H (see Appendix Three for ASCII codes).
  1647.  
  1648. |DATA-BASICS|
  1649.  
  1650. Think of a database as a section of a filing cabinet.  The database manager
  1651. enables you to create a special form for that section and to control the data
  1652. which are contained in each form.  A form contains one record.  A record
  1653. contains pieces of information, such as name, age, sex etc., in separate boxes
  1654. called fields.  The type of field depends upon the type of data it has been
  1655. designed to accept, e.g. 10 characters or a number with 3 decimal places.  All
  1656. of this field information is defined when you create a new database file.  The
  1657. resulting template is then used to admit information to successive records.
  1658. Arcus allows you to change this basic structure even after you have put
  1659. information into the database file.
  1660.  
  1661. The term "report" refers to information taken from the records in the database
  1662. file for inspection on screen or print-out.  This information consists of the
  1663. fields and records which you specify.  That brings us to another important term
  1664. "record selection".  Arcus uses the dBASE language to define your conditions for
  1665. selecting the records which you want to look at.  For example, you might want to
  1666. consider only those aged 65 or over.  In this case you enter the selection term
  1667. as AGE >= 65 providing you have a field called AGE.  These selection expressions
  1668. can be highly complex, for more details see ¬<record selection functions>╪69953     ¬.
  1669.  
  1670. You might have heard the term "relational database".  This refers to the way in
  1671. which several sections of our filing cabinet communicate or "relate".  Say we
  1672. had basic patient details in one section and information from a study in another
  1673. then a link between the two.  This link is a special field, such as case sheet
  1674. number, which is common to both sections/databases.  The current Arcus database
  1675. manager does not provide relational operation.  If you need this facility then
  1676. you should use a dedicated database management system and use Arcus database
  1677. manager as a link between this and the Arcus worksheet.
  1678.  
  1679. The last term we shall examine here is "index".  An index is a file which keeps
  1680. track of the records in your database file.  It enables you to specify an order
  1681. in which you wish to work with database records.  This order refers to one field
  1682. e.g. surnames in alphabetical order.  One database file can have many index
  1683. files so that you can look at the same database in different ways.  If you alter
  1684. a database file in any way without having an index file open then the index
  1685. will have lost track of your database.  You must, therefore, re-index the
  1686. database if you think changes have been made to the database file without
  1687. having the index file open.
  1688.  
  1689. |ANALYSIS|
  1690.  
  1691. ¬<Worksheet oriented analysis>╪77578     ¬
  1692. ¬<Instant functions>╪213040    ¬
  1693.  
  1694. The analytical functions of Arcus are divided into the two sections shown above.
  1695. Worksheet oriented functions require data which have been prepared using the
  1696. worksheet in the data management section of Arcus.  Instant functions prompt
  1697. you for data when you select a function, e.g. a box to fill in a four fold
  1698. contingency table.
  1699.  
  1700. |Worksheet oriented analysis|
  1701.  
  1702. ¬<Arithmetical Manipulation>╪78201     ¬
  1703. ¬<Descriptive Statistics>╪80612     ¬
  1704. ¬<Pictorial Statistics>╪81471     ¬
  1705. ¬<Parametric Methods>╪87475     ¬
  1706. ¬<Nonparametric Methods>╪98877     ¬
  1707. ¬<Regression and Correlation>╪119789    ¬
  1708. ¬<Analysis of Variance>╪158578    ¬
  1709. ¬<Survival Analysis>╪182274    ¬
  1710.  
  1711.  
  1712. All of the analysis functions which do not require their data to have been
  1713. entered in the Arcus worksheet are described under "¬Instant Functions╪213040    ¬".  Those
  1714. functions which do require previously entered data from the Arcus worksheet
  1715. are dealt with in this section.
  1716.  
  1717. |Arithmetical Manipulation|
  1718.  
  1719. This provides a selection of arithmetical treatments which can be applied to a
  1720. worksheet column (variable).  For example you could apply the expression
  1721. V1 * (V1/SQR(V1)+2) to the variable V1 and the result of this equation for
  1722. each of the data in the V1 variable would be placed in a new variable.  The
  1723. results are always stored in a new variable which you name, the data in the
  1724. source variable are never altered.  Arcus Pro-Stat can interpret a wide range
  1725. of functions, these are identical to the cell editor functions which are
  1726. described in the ¬Arcus worksheet╪36264     ¬ section of this hypertext.  You apply the
  1727. expression by entering it via the keyboard and you can call up a list of
  1728. allowable functions by pressing the F1 key when you are editing the expression.
  1729. There is also provision for you to create a new variable as a function of more
  1730. than one existing Arcus variable; V1, V2, V3 etc.  For example, if you wanted
  1731. to create a column of electrical current values using Ohm's law (V = I * R)
  1732. you could select resistance as V1 and voltage as V2 then apply the expression
  1733. V2 / V1.
  1734.  
  1735. ¬<Other Transformations>╪79380     ¬
  1736.  
  1737. |Other Transformations|
  1738.  
  1739. Please note that logit, probit, angular and cumulative transformations
  1740. are listed in this section whereas ranks, sortings and normal scores can be
  1741. obtained via the nonparametric methods section.  If you request probit, logit
  1742. or angular transformation for a set of discrete data then the result for each
  1743. data point will represent the transformation of the proportion (p) of the
  1744. maximum in the variable which that point comes from.  Logit transformation is
  1745. defined as LOG(p/(1-p)) and provides a way of linearizing sigmoid distributions.
  1746. Probit transformation is defined as 5 + Z(1-p) and also provides a way of
  1747. linearizing sigmoid distributions.  Angular transformation uses arcsin(*p),
  1748. this provides a way of linearizing sigmoid distributions and equalising variances.
  1749. For Logit and Probit transformations indeterminable values (when p=0 or p=1)
  1750. are stored as missing data.  The name for a variable resulting from one of these
  1751. transformations is the name of the source variable suffixed with ~Pr, ~Lo, ~Ag
  1752. or ~Cm as appropriate.  N.B. - each time something computationally illegal,
  1753. such as the natural logarithm of zero, is requested then the result is stored
  1754. as the missing data value.
  1755.  
  1756. |Descriptive Statistics|
  1757.  
  1758. This option provides measures of location and dispersion which describe the
  1759. data in any variable.  You are given the number, arithmetic mean, variance,
  1760. standard deviation, standard error of the arithmetic mean, confidence interval
  1761. for the arithmetic mean, geometric mean, coefficient of skewness, coefficient
  1762. of kurtosis, maximum, upper quartile, median, lower quartile, minimum and range
  1763. for each selected variable.  You can also choose to calculate any additional
  1764. quantile and this is appended to the results listed above. Incalculable results
  1765. are displayed as missing data using an asterisk (*).  Arcus uses Kendall's
  1766. definitions of skewness and kurtosis (ref 7).  The relative merits of these
  1767. descriptive methods are presented clearly and concisely in Aviva Petrie's
  1768. book (ref 1).
  1769.  
  1770. ¬<reference list>╪310584    ¬
  1771.  
  1772. |Pictorial Statistics|
  1773.  
  1774. ¬<Histogram>╪82408     ¬
  1775. ¬<Box and Whisker Plot>╪83131     ¬
  1776. ¬<Scatter Plot>╪83837     ¬
  1777. ¬<Normal Plot>╪84456     ¬
  1778. ¬<Survival Plot>╪85093     ¬
  1779. ¬<Error Bar Plot>╪85626     ¬
  1780. ¬<Spread Plot>╪86257     ¬
  1781. ¬<Ladder Plot>╪86870     ¬
  1782.  
  1783. You can describe and relate your data graphically using these functions.
  1784. Neat scales are chosen automatically for each function and the figure is
  1785. composed using standard ASCII text characters or graphics images.  High quality
  1786. presentation graphics output can be obtained from the graphics functions when
  1787. you are using a PostScript printer.  Please note that you can also export
  1788. PostScript images for use in most good word processing software; however the
  1789. target printer must also be PostScript compatible.  Printing is activated by
  1790. pressing P when the figure is displayed.  You can annotate the ASCII graphics
  1791. before sending them to a printer or to a log file.
  1792.  
  1793. |Histogram (ASCII)|
  1794.  
  1795. The frequency distribution histograms are plotted horizontally across the screen
  1796. with the count for each division displayed at the right hand side. This function
  1797. divides your variable into x ranges between the minimum and maximum value of the
  1798. selected variable.  You specify x.  Arcus then selects a "neat" set of midpoints
  1799. for these ranges and draws horizontal bars to represent the number of data in
  1800. the variable which fall into each of these ranges.  For less than 64 data points
  1801. per bar each asterisk (*) represents one count, above this value the bars are
  1802. proportional representations but their true values can be gleaned from the
  1803. counts display at the right hand side of the screen.
  1804.  
  1805. |Box and Whisker Plot|
  1806.  
  1807. Box and Whisker plots, described by Tukey (1977),  give you a pictorial
  1808. representation of the nonparametric descriptive statistics.  In Arcus Pro-Stat,
  1809. the "box" bounded by parentheses represents the distance between the first and
  1810. third quartiles with the median between them marked by an asterisk (*), with the
  1811. minimum as the origin of the leading "whisker" and with the maximum as the limit
  1812. of the trailing "whisker".  This is a very good way of showing an audience the
  1813. spread of your data, it is much easier to convey than a dry list of
  1814. nonparametric descriptive statistics.  The graphics based version of this plot
  1815. is intended for PostScript presentation graphics.
  1816.  
  1817. |Scatter Plot (ASCII) & (Graphic)|
  1818.  
  1819. This function plots a Y axis (ordinate) variable against an X axis (abscissa)
  1820. variable.  The scale selection for the axes is automatic.  Superimposed plot
  1821. points are displayed as the number of plot points at one screen location
  1822. provided this number is less than 10.  If more than 9 plot points lie at one
  1823. screen location then it is marked with the letter X.  The graphics based version
  1824. of this function allows you to display up to four series which are displayed
  1825. using different marker styles for each series and you can opt to display
  1826. joining lines between the markers.
  1827.  
  1828. |Normal Plot (ASCII)|
  1829.  
  1830. The normal plot uses the same physical plotting procedures as the ASCII text
  1831. based scattergram but you select only one variable which is plotted against
  1832. its normal scores.  Normal scores are calculated as Z((2k-1)/2n) where k is the
  1833. rank of a datum in your variable, n is the number of data and Z is a quantile
  1834. from the standard normal distribution.  The linearity of the resultant plot
  1835. indicates the normality of the distribution of the data in your selected
  1836. variable.  For a more objective assessment of normality please use the
  1837. Shapiro-Wilk W test which is listed in the parametric methods section.
  1838.  
  1839. |Survival Plot|
  1840.  
  1841. This provides a graphics based step plot for displaying survival curves.  It is
  1842. intended to be used with variables for Time on the X axis and S (the Kaplan-
  1843. Meier survivor function) on the Y axis.  You can use up to four series and
  1844. high quality output is available via a PostScript printer.  This is a good
  1845. accompaniment to a presentation of survival analysis which compares survival
  1846. (or time to event) data in different groups.  Please see ¬Kaplan-Meier╪182964    ¬ for
  1847. more information on generating S.
  1848.  
  1849. |Error Bar Plot|
  1850.  
  1851. The high-low-close plots of business graphics packages can be difficult to
  1852. manipulate if you have to display more than one series; therefore, I have
  1853. included this function in Arcus.  You can use up to four series for which you
  1854. must provide three variables for each series; the X data, the Y data and the
  1855. error function of the Y data.  The error function can be, for example, the
  1856. standard error of the mean for each Y when each Y point represents the mean of
  1857. repeated observations.  Different series are represented by different marker
  1858. styles and you can opt to show joining lines between the markers.
  1859.  
  1860. |Spread Plot|
  1861.  
  1862. This is a very useful way of presenting the spread of data in up to four
  1863. groups.  It is one step back from the Box & Whisker plot in that it gives
  1864. an entirely pictorial representation of the spread of your data.  The axis is
  1865. divided into an arbitrary number of divisions which are the width of a plot
  1866. point; if more than one datum occupies a division it is plotted alongside the
  1867. first, thus a concentration of data at a particular value is represented by a
  1868. broad band.  I liken this to a "statistical electrophoresis".  High quality
  1869. output is available when using a PostScript printer.
  1870.  
  1871. |Ladder Plot|
  1872.  
  1873. Arcus provides a ladder plot for the comparison of paired data from two groups.
  1874. This is a useful pictorial accompaniment to paired t and wilcoxon signed ranks
  1875. tests when the number of pairs is not too large.  Each pair is joined by a line;
  1876. these lines would look like the parallel rungs of a ladder if there was little
  1877. difference between each pair.  A presentation of continuous observations from
  1878. a small to medium sized population before and after an intervention is
  1879. conveniently represented by a ladder plot.  High quality output is available
  1880. when using a PostScript printer.
  1881.  
  1882. |Parametric Methods|
  1883.  
  1884. ¬<Tests using Student's t>╪87973     ¬
  1885. ¬<Z (Normal distribution) tests>╪96200     ¬
  1886. ¬<F (variance ratio) test>╪95622     ¬
  1887. ¬<Shapiro-Wilk test for normality>╪97214     ¬
  1888.  
  1889. This section provides various hypothesis tests and descriptive functions which
  1890. assume that your data come from a normal distribution.  The Shapiro-Wilk W test
  1891. is, strictly speaking, a nonparametric method but it is included in this section
  1892. because it enables you to test for "non-normality".
  1893.  
  1894. |Tests using Student's t|
  1895.  
  1896. ¬<Paired t test>╪88342     ¬
  1897. ¬<Single sample t test>╪91441     ¬
  1898. ¬<Unpaired (two sample) t test>╪93086     ¬
  1899.  
  1900. Please note that Student t tests using numbers, means and standard deviations
  1901. directly instead of being calculated from worksheet columns are given in the
  1902. Student's t distribution section of the instant functions module.
  1903.  
  1904. |Paired t test|
  1905.  
  1906. The paired t test provides an hypothesis test of the difference between
  1907. population means for a pair of random samples whose differences are from an
  1908. approximately normal distribution.  A confidence interval is provided for the
  1909. difference between the means and the limits of agreement are given (ref 4, 5).
  1910.  
  1911. EXAMPLE:  Comparison of peak expiratory flow rate before and after a walk on a
  1912. cold winter's day for a random sample of 9 asthmatics.  You enter two columns
  1913. in the worksheet, one of PEFR's before the walk and the other of PEFR's after
  1914. the walk.  In this example each row must represent the same subject, in other
  1915. studies the data might be matched / paired in some other way.
  1916.  
  1917. subject   before    after
  1918. 1         312       300
  1919. 2         242       201
  1920. 3         340       232
  1921. 4         388       312
  1922. 5         296       220
  1923. 6         254       256
  1924. 7         391       328
  1925. 8         402       330
  1926. 9         290       231
  1927.  
  1928. If you were to plot these pairs using a ladder plot you would see that all but
  1929. one pair decreases.  You might also wish to test the assumption that the
  1930. differences are from a normal distribution, this can be done with the Shapiro
  1931. -Wilk test.  If you want to create a separate column of differences then press
  1932. Alt+Q in the worksheet to create a new column as "after-before".
  1933.  
  1934. Then select this function with say 95% confidence level when prompted.  The
  1935. results screen will show you p values and the confidence interval for the
  1936. difference between the means.
  1937.  
  1938. For our example:
  1939.  
  1940. Mean of differences = 56.1
  1941. 95% CI for difference between means = 29.8 to 82.4
  1942. two tailed p = 0.0012 **
  1943.  
  1944. A null hypothesis of no difference between the means is clearly rejected because
  1945. the confidence interval does not include zero.
  1946.  
  1947. ¬<p values>╪29175     ¬
  1948. ¬<confidence intervals>╪31897     ¬
  1949. ¬<reference list>╪310584    ¬
  1950.  
  1951. Considering other studies where the two groups represent two different ways of
  1952. measuring the same thing or two different observers you might be interested in
  1953. the limits of agreement.  These limits are displayed on the standard paired t
  1954. test results screen and an agreement plot is given after each paired t test.
  1955. These only apply to agreement studies.  When two methods of measurement are
  1956. being compared it is almost always erroneous to present a scatter plot with
  1957. correlation as a measure of agreement between the paired data obtained using the
  1958. two methods of measurement.  Highly correlated results often agree poorly,
  1959. indeed large shifts in measurement scales may leave the correlation coefficient
  1960. unaltered.  It is therefore necessary to provide a quantification of agreement.
  1961. This is done by use of the paired t-test and limits of agreement.  Arcus allows
  1962. you to select a confidence level for limits of agreement and provides an ASCII
  1963. plot of the difference against the mean for each pair of measurements.  This
  1964. plot also displays the overall mean difference bounded by the limits of
  1965. agreement.  A good review of this subject has been provided by Martin Bland and
  1966. Doug Altman (ref 29, 5).
  1967.  
  1968. |Single sample t test|
  1969.  
  1970. The single sample t method tests the null hypothesis that the population mean
  1971. is equal to a specified value.  If this value is zero then the confidence
  1972. interval for the sample mean is given (ref 4, 5).
  1973.  
  1974. EXAMPLE:  Consider 20 first year resident doctors drawn at random from a
  1975. regional health authority, resting systolic blood pressures measured using an
  1976. electronic sphygmomanometer were:
  1977.  
  1978.  128    127
  1979.  118    115
  1980.  144    142
  1981.  133    140
  1982.  132    131
  1983.  111    132
  1984.  149    122
  1985.  139    119
  1986.  136    129
  1987.  126    128
  1988.  
  1989. From previous large studies of "healthy" individuals drawn at random from the
  1990. general public (with the same male:female ratio) a resting systolic blood
  1991. pressure of 120 mm Hg was predicted as the age matched population mean.  To
  1992. analyse these data in Arcus first prepare a worksheet column containing all 20.
  1993. Then select the single sample t test from the parametric methods menu of the
  1994. analysis section.  Enter your population mean as 120 then run the test again
  1995. without entering a population mean.
  1996.  
  1997. For our example:
  1998.  
  1999. sample mean = 130
  2000. 95% CI for difference between means (i.e. sample-population) = 5.4 to 14.7
  2001. 95% CI for sample mean = 125.4 to 134.7
  2002. two tailed p = 0.0002 ***
  2003.  
  2004. A null hypothesis of no difference between sample and population means has
  2005. clearly been rejected.  Using the 95% CI we expect the mean systolic BP for
  2006. this population of doctors to be at least 5 mm Hg greater than the age and
  2007. sex matched general public, lying somewhere between 125 and 135 mm Hg.
  2008.  
  2009. ¬<p values>╪29175     ¬
  2010. ¬<confidence intervals>╪31897     ¬
  2011. ¬<reference list>╪310584    ¬
  2012.  
  2013. |Unpaired (two sample) t test|
  2014.  
  2015. The unpaired t method tests the null hypothesis that the population means
  2016. relating to two independent, random samples from an approximately normal
  2017. distribution are equal (ref 4, 5).  A confidence interval is constructed for
  2018. the difference between population means.  This test must not be used if there
  2019. is a significant difference between the variances of the two samples, this is
  2020. tested for and you are given appropriate warnings.  There are parametric
  2021. alternatives which have been designed to cope with the situation of unequal
  2022. variances, namely the methods due to Behrens and Welch, but the nonparametric
  2023. Mann-Whitney test is more robust.
  2024.  
  2025. EXAMPLE (from Armitage, ref 4 p 109):  Consider the gain in weight of 19 female
  2026. rats between 28 and 84 days after birth.  12 were fed on a high protein diet
  2027. and 7 on a low protein diet:
  2028.  
  2029.  High Protein   Low Protein
  2030.  134             70
  2031.  146            118
  2032.  104            101
  2033.  119             85
  2034.  124            107
  2035.  161            132
  2036.  107             94
  2037.   83
  2038.  113
  2039.  129
  2040.   97
  2041.  123
  2042.  
  2043. To analyse these data in Arcus first prepare them in two worksheet columns and
  2044. label these columns appropriately.  Then select the unpaired t test from the
  2045. parametric methods menu of the analysis section.  Request a 95% confidence
  2046. interval (CI) by pressing the enter key when prompted.
  2047.  
  2048. For this example:
  2049.  
  2050. mean of "High Protein" = 120 g
  2051. mean of "Low Protein" = 101 g
  2052. difference between sample means = 19
  2053. 95% CI for difference between population means = -2.2 to 40.2
  2054. two tailed p = 0.07
  2055.  
  2056. Thus we have a difference which is not quite significant at the 5% level.  The
  2057. most important information is, however, conveyed by the CI.  The 95% CI includes
  2058. zero therefore we can not be confident (at the 95% level) that these data show
  2059. any difference in weight gain.  As most of the interval is toward weight gain
  2060. and as the test result is in the grey "suggestive" 5%-10% zone we have good
  2061. evidence for repeating this experiment with larger numbers.  Bigger samples
  2062. will probably shrink the range of uncertainty so that the CI contracts to a
  2063. narrower band clearly above zero.
  2064.  
  2065. NB We did not consider a one tailed p here because we could not be absolutely
  2066. certain that the rats would all benefit from a high protein diet in comparison
  2067. with those on a low protein diet.  They might have suffered adverse effects
  2068. from our high protein diet.
  2069.  
  2070. ¬<p values>╪29175     ¬
  2071. ¬<confidence intervals>╪31897     ¬
  2072. ¬<reference list>╪310584    ¬
  2073.  
  2074. |F (variance ratio) Test|
  2075.  
  2076. This tests the equality of two variances from random samples which are
  2077. approximately normally distributed.  Only the upper tail probability need be
  2078. considered because the larger variance is always used as the numerator in
  2079. Snedecor's variance ratio F (ref 4, 5).  In most situations this probability
  2080. should be doubled to give a two tailed test.  Analysis of variance can utilise
  2081. a one tailed probability because the numerator and denominator of the variance
  2082. ratio are predetermined.
  2083.  
  2084. ¬<p values>╪29175     ¬
  2085. ¬<reference list>╪310584    ¬
  2086.  
  2087. |Z (normal distribution) Test|
  2088.  
  2089. For large (n >= 50) normally distributed samples you can use this sensitive
  2090. method which is equivalent to the single sample and unpaired t tests.  You may
  2091. either compare two independent random variables or compare the data in a variable
  2092. with a known population mean. Remember that with large degrees of freedom a t
  2093. distribution is approximately normal (ref 4, 5).
  2094.  
  2095. EXAMPLE:  See the examples for t tests and consider these in the context of
  2096. larger samples.
  2097.  
  2098. You will gain a little more sensitivity by using the normal distribution tests
  2099. but you must have good reason to believe that your data have been drawn from a
  2100. normal distribution.  The t tests are less sensitive to small deviations from
  2101. normality, so use them instead if you have any doubt.  If your data are clearly
  2102. non-normal then you must use one of the nonparametric methods even if you have
  2103. large samples.
  2104.  
  2105. ¬<p values>╪29175     ¬
  2106. ¬<confidence intervals>╪31897     ¬
  2107. ¬<reference list>╪310584    ¬
  2108.  
  2109. |Shapiro-Wilk test for non-normality|
  2110.  
  2111. This test is a complex analysis of variance which can be used to test a variable
  2112. for the non-normality of its data.  There must be a random sample of between 3
  2113. and 2000 data.  The null hypothesis of the test is that the sample is taken from
  2114. a normal distribution, thus a significance level of < 0.05 rejects this
  2115. supposition of normality.  You should not use any of the parametric methods
  2116. with variables for which W is significant.  Most authors agree that this is the
  2117. most reliable quantification of normality for small to medium sample sizes
  2118. (ref 6, 21, A17, A18).
  2119.  
  2120. EXAMPLE (Shapiro & Wilk ref 21):  Consider the following 30 penicillin yields:
  2121.  
  2122. 0.0958    0.0002
  2123. 0.0333   -0.0026
  2124. 0.0293   -0.0036
  2125. 0.0246   -0.0042
  2126. 0.0206   -0.0113
  2127. 0.0194   -0.0139
  2128. 0.0191   -0.0211
  2129. 0.0182   -0.0333
  2130. 0.0173   -0.0341
  2131. 0.0132   -0.0363
  2132. 0.0102   -0.0363
  2133. 0.0084   -0.0402
  2134. 0.0077   -0.0582
  2135. 0.0058   -0.1184
  2136. 0.0016   -0.1398
  2137.  
  2138. To test these data for non-normality using Arcus you must first prepare them in
  2139. a worksheet column.  Then select the Shapiro-Wilk test from the parametric
  2140. methods menu of the analysis section.
  2141.  
  2142. Here the test statistic was clearly significant at p = 0.002 which rejects the
  2143. null hypothesis that these data are from a normal distribution.  In fact these
  2144. data were from a 2 by 5 factor grouping experiment.
  2145.  
  2146. N.B.  Do NOT use this test to say that your data are "normally distributed"
  2147. this is quite wrong!  The Shapiro-Wilk test is to provide evidence for
  2148. certain types of "non-normality" it does NOT guarantee "normality".
  2149.  
  2150. ¬<p values>╪29175     ¬
  2151. ¬<reference list>╪310584    ¬
  2152.  
  2153. |Nonparametric Methods|
  2154.  
  2155. ¬<Mann-Whitney test>╪100302    ¬
  2156. ¬<Wilcoxon's signed ranks test>╪102924    ¬
  2157. ¬<Spearman's rank correlation>╪105582    ¬
  2158. ¬<Kendall's rank correlation>╪107776    ¬
  2159. ¬<Cuzick's test for trend>╪110163    ¬
  2160. ¬<Two sample Smirnov test>╪112415    ¬
  2161. ¬<Quantile confidence interval>╪114119    ¬
  2162. ¬<Save ranked data>╪115938    ¬
  2163. ¬<Save sorted data>╪117024    ¬
  2164. ¬<Save normal scores>╪118837    ¬
  2165.  
  2166.  
  2167. This section provides various hypothesis tests and descriptive functions which
  2168. do not assume that your data are taken from normal distributions.  When you
  2169. have few data or there is doubt about their distribution then you should err on
  2170. the side of caution and use nonparametric methods.  These methods are usually
  2171. less sensitive than their parametric counterparts but they are more robust.  The
  2172. numerical methods involved in these rank based calculations have progressed in
  2173. the last few years and Arcus Pro-Stat utilises the most modern developments,
  2174. including some calculations of exact probability in the presence of tied data.
  2175. An excellent account of nonparametric methods is given by Conover (ref 6).
  2176.  
  2177. In addition to the rank based tests below you can use three functions in this
  2178. section to save the ranks, sorted data or normal scores of a variable into a
  2179. new variable.  The name of this new variable is the name of the source variable
  2180. prefixed with Rk~, Sr~ or Ns~ as appropriate.
  2181.  
  2182. |Mann-Whitney test| / Wilcoxon Rank Sum Test
  2183.  
  2184. This is a distribution free method for the comparison of two independent random
  2185. samples which have been measured using a scale that is at least ordinal.  Arcus
  2186. uses the sampling distribution of U to give exact probabilities.  This can take
  2187. a long time when there are tied data so please do not think that your computer
  2188. has crashed.  Confidence intervals are constructed for the difference between
  2189. the two population means. The level of confidence used is as close as possible
  2190. to that which you have selected.  Arcus approaches the selected confidence level
  2191. from the conservative side.  When samples are large a normal approximation is
  2192. used for the hypothesis test and for the confidence interval (ref 6, A6, A19,
  2193. A20).
  2194.  
  2195. EXAMPLE: (from Conover ref 6 p 218)  The following data represent fitness scores
  2196. from two groups of boys of the same age, those from homes in the town and those
  2197. from farm homes:
  2198.  
  2199.  Farm Boys              Town Boys
  2200.  14.8    10.6           12.7     16.9      7.6      2.4      6.2      9.9
  2201.   7.3    12.5           14.2      7.9     11.3      6.4      6.1     10.6
  2202.   5.6    12.9           12.6     16.0      8.3      9.1     15.3     14.8
  2203.   6.3    16.1            2.1     10.6      6.7      6.7     10.6      5.0
  2204.   9.0    11.4           17.7      5.6      3.6     18.6      1.8      2.6
  2205.   4.2     2.7           11.8      5.6      1.0      3.2      5.9      4.0
  2206.  
  2207. To analyse these data in Arcus you must first enter them in two separate
  2208. worksheet columns.  Then select the Mann-Whitney test from the nonparametric
  2209. methods menu of the analysis section.  Press enter when prompted for confidence
  2210. interval specifications, this accepts the default 95% level.
  2211.  
  2212. For this example:
  2213.  
  2214. difference between sample medians = 0.8
  2215. two tailed p = 0.53
  2216. 95.1% CI for difference between population means = -2.4 to 4.4
  2217.  
  2218. Here we have assumed that these groups are independent and that they represent
  2219. at least hypothetical random samples of the sub-populations they represent.  In
  2220. this analysis we clearly have to accept the null hypothesis that one group does
  2221. NOT tend to yield different fitness scores to the other.  The extent of this
  2222. lack of difference is shown by zero being contained well within the confidence
  2223. interval for the difference between population means.  Note that the quoted
  2224. 95.1% confidence interval is as close as you can get to 95% because of the very
  2225. nature of the mathematics involved in nonparametric methods like this.
  2226.  
  2227. ¬<p values>╪29175     ¬
  2228. ¬<confidence intervals>╪31897     ¬
  2229. ¬<reference list>╪310584    ¬
  2230.  
  2231. |Wilcoxon's Signed Ranks| (matched pairs) test
  2232.  
  2233. This is a nonparametric method for the comparison of a pair of samples whose
  2234. component data have differences which are from a symmetrical distribution.
  2235. A two tailed test uses the null hypothesis that the common median of the
  2236. differences is zero.  A confidence interval is constructed for the difference
  2237. between the population medians.  The sum of the ranks for the positive
  2238. non-zero differences is given and the exact permutational probability
  2239. associated with this value is calculated for sample sizes of less than 30.
  2240. A normal approximation is used with sample sizes of 30 or more and when there
  2241. are ties.  Please note that some statistical software uses an old approximation
  2242. formula which is inappropriate in the presence of ties.  Conover (ref 6) states
  2243. that in the presence of ties the test statistic must be the sum of signed ranks
  2244. divided by the square root of this sum. You may be familiar with the old method
  2245. of using the smaller sum of ranks in one direction but this is not appropriate
  2246. with tied data. Confidence limits are calculated using critical values for k
  2247. with sample sizes up to 30 or by calculating K* for samples with more than 30
  2248. observations (ref 6, A20).
  2249.  
  2250. EXAMPLE (from Conover ref 6 p 283):  The following data represent agressivity
  2251. scores for 12 pairs of monozygotic twins:
  2252.  
  2253.   Firstborn: 86  71  77  68  91  72  77  91  70  71  88  87
  2254. Second Twin: 88  77  76  64  96  72  65  90  65  80  81  72
  2255.  
  2256. To analyse these data in Arcus you must first enter them into two columns in the
  2257. worksheet.  Then select Wilcoxon's signed ranks test from the nonparametric
  2258. methods menu of the analysis section.  Select a 95% confidence interval by
  2259. pressing enter when prompted by the confidence interval menu.
  2260.  
  2261. For this example:
  2262.  
  2263. two tailed p = 0.45
  2264. median difference = 1.5
  2265. 95.8% CI for the difference between population medians = -2.5 to 6.5
  2266.  
  2267. Assuming that the paired differences come from a symmetrical distribution then
  2268. these results show that one group did not tend to yield different results to
  2269. the other group which was paired with it, i.e. there was no statistically
  2270. significant difference between the agressivity scores of the firstborn as
  2271. compared with the second twin.  The extent of this lack of difference is shown
  2272. well by the confidence interval which clearly encompasses zero.  Note that the
  2273. quoted 95.1% confidence interval is as close as you can get to 95% because of
  2274. the very nature of the mathematics involved in nonparametric methods like this.
  2275.  
  2276. ¬<p values>╪29175     ¬
  2277. ¬<confidence intervals>╪31897     ¬
  2278. ¬<reference list>╪310584    ¬
  2279.  
  2280. |Spearman's Rank Correlation|
  2281.  
  2282. This is a distribution free test of independence between two variables.  It is,
  2283. however, insensitive to some types of dependence.  Kendall's tau gives a much
  2284. better measure of correlation and is also a better test for independence in the
  2285. two tailed setting.  Spearman's rank correlation coefficient (rho) is given to
  2286. six decimal places.  The probability associated with rho is evaluated using a
  2287. recurrence method when n < 7 and the Edgeworth series expansion when n >= 7
  2288. (ref A13).  A confidence interval for rho is constructed using Fisher's Z
  2289. transformation (ref 6, 11, 15).
  2290.  
  2291. EXAMPLE (from Conover ref 6 p 283):  The following data represent agressivity
  2292. scores for 12 pairs of monozygotic twins:
  2293.  
  2294.   Firstborn: 86  71  77  68  91  72  77  91  70  71  88  87
  2295. Second Twin: 88  77  76  64  96  72  65  90  65  80  81  72
  2296.  
  2297. To analyse these data in Arcus you must first enter them into two columns in the
  2298. worksheet.  Then select Spearman's rank correlation from the nonparametric
  2299. methods menu of the analysis section.  Select a 95% confidence interval by
  2300. pressing enter when prompted by the confidence interval menu.
  2301.  
  2302. For this example:
  2303.  
  2304. rho = 0.74
  2305. 95% CI for rho = 0.28 to 0.92
  2306. two tailed p = 0.0082 **
  2307.  
  2308. Here we have clearly rejected the null hypothesis of mutual independence
  2309. between the agressivity scores of pairs of twins.  With a two tailed test we
  2310. are considering the possibility of a positive or a negative correlation, i.e.
  2311. we can't be sure of this direction at the outset.  A one tailed test would have
  2312. been restricted to correlation in one direction only i.e. big values of one
  2313. group associated with big values of the other (positive correlation) or big
  2314. values of one group associated with small values of the other (negative
  2315. correlation).  In our example we can conclude that there is a statistically
  2316. significant lack of independence between agressivity scores of these twins.
  2317. We could then go on to speculate that agressivity had an inherited component,
  2318. especially if these twins were brought up by different families.
  2319.  
  2320. ¬<p values>╪29175     ¬
  2321. ¬<confidence intervals>╪31897     ¬
  2322. ¬<reference list>╪310584    ¬
  2323.  
  2324. |Kendall's Rank Correlation|
  2325.  
  2326. Spearman's rank correlation is satisfactory for testing a null hypothesis of
  2327. independence between two variables but it is difficult to interpret when the
  2328. null hypothesis is rejected.  Kendall's rank correlation improves upon this by
  2329. reflecting the strength of the dependence between the variables being compared.
  2330. Arcus gives you the directional change statistics and the test statistic tau.
  2331. In the presence of ties the test statistic tau b is given (as Kendall 1970).
  2332. A normalised statistic (Z) is also given (continuity corrected and uncorrected)
  2333. with associated probability and this is adjusted, using the full variance
  2334. formula, in the presence of ties. In the absence of ties the probability
  2335. associated with S (and thus tau) is evaluated using a recurrence formula when
  2336. n < 9 and the Edgeworth series expansion when n >= 9 (ref A14).  In the presence
  2337. of ties you must accept the normal approximation (ref 6, 15).
  2338.  
  2339. EXAMPLE (from Conover ref 6 p 283):  The following data represent agressivity
  2340. scores for 12 pairs of monozygotic twins:
  2341.  
  2342.   Firstborn: 86  71  77  68  91  72  77  91  70  71  88  87
  2343. Second Twin: 88  77  76  64  96  72  65  90  65  80  81  72
  2344.  
  2345. To analyse these data in Arcus you must first enter them into two columns in the
  2346. worksheet.  Then select Kendall's rank correlation from the nonparametric
  2347. methods menu of the analysis section.
  2348.  
  2349. For this example:
  2350.  
  2351. tau = 0.56
  2352. continuity corrected two tailed p = 0.0136 *
  2353.  
  2354. Here we have clearly rejected the null hypothesis of mutual independence
  2355. between the agressivity scores of pairs of twins.  With a two tailed test we
  2356. are considering the possibility of a positive or a negative correlation, i.e.
  2357. we can't be sure of this direction at the outset.  A one tailed test would have
  2358. been restricted to correlation in one direction only i.e. big values of one
  2359. group associated with big values of the other (positive correlation) or big
  2360. values of one group associated with small values of the other (negative
  2361. correlation).  In our example we can conclude that there is a statistically
  2362. significant lack of independence between agressivity scores of these twins.
  2363. We could then go on to speculate that agressivity had an inherited component,
  2364. especially if these twins were brought up by different families.
  2365.  
  2366. ¬<p values>╪29175     ¬
  2367. ¬<reference list>╪310584    ¬
  2368.  
  2369. |Cuzick's Test for Trend|
  2370.  
  2371. This provides a Wilcoxon-type test for trend across a group of three or more
  2372. independent randomly sampled variables.  The component data must be at least
  2373. ordinal and groups must be selected in a meaningful order i.e. ordered.  A
  2374. logistic distribution is assumed for errors.  If you do not choose to enter your
  2375. own group scores then scores are allocated uniformly (1 ... n) in order of
  2376. selection of the n groups.  For the null hypothesis of no trend across the
  2377. groups T will have mean ET, variance VarT and the null hypothesis is tested
  2378. using the normalised test statistic Z.  Probabilities for Z are derived from
  2379. the standard normal distribution.  Please note that this test is more powerful
  2380. than the application of the Wilcoxon rank-sum / Mann-Whitney test between
  2381. more than two groups of data (ref 28).
  2382.  
  2383. EXAMPLE (from Cuzick's paper ref 28):  Mice were inoculated with cell lines,
  2384. CMT 64 to 181, which had been selected for their increasing metastatic
  2385. potential.  The number of lung metastases found in each mouse after inoculation
  2386. are quoted below:
  2387.  
  2388. CMT 64     0, 0, 1, 1, 2, 2, 4, 9
  2389. CMT 167    0, 0, 5, 7, 8, 11, 13, 23, 25, 97
  2390. CMT 170    2, 3, 6, 9, 10, 11, 11, 12, 21
  2391. CMT 175    0, 3, 5, 6, 10, 19, 56, 100, 132
  2392. CMT 181    2, 4, 6, 6, 6, 7, 18, 39, 60
  2393.  
  2394. To analyse these data in Arcus you must first enter them in five worksheet
  2395. columns labelled appropriately.  Then select Cuzick's test for trend from the
  2396. nonparametric methods menu of the analysis section.  Just press N when you
  2397. are asked if you want to enter group scores, this does not apply to most
  2398. analyses provided you select the variables in the order you are studying them.
  2399. With automatic group scoring you must be careful to select the variables in
  2400. the order across which you want to look for trend.
  2401.  
  2402. For this example:
  2403.  
  2404. one tailed p (corrected for ties) = 0.017 *
  2405.  
  2406. With these data we started out expecting a trend in one direction only,
  2407. therefore, we can use a one tailed test for trend.  We have show a statistically
  2408. significant trend for increasing number of metastases across these malignant
  2409. cell lines in this order.
  2410.  
  2411. ¬<p values>╪29175     ¬
  2412. ¬<confidence intervals>╪31897     ¬
  2413. ¬<reference list>╪310584    ¬
  2414.  
  2415. |Two Sample Smirnov Test|
  2416.  
  2417. Where you have two independent samples which have been drawn from possibly
  2418. different populations then you might consider looking for differences between
  2419. them using a t test or Mann-Whitney test.  These tests are sensitive to
  2420. differences between two means or medians but do not consider other differences
  2421. such as variance.  The two sample Smirnov method tests the null hypothesis that
  2422. the distribution functions of the populations from which your samples have been
  2423. drawn are identical.  The test assumes that you have random samples which are
  2424. mutually independent.  The measurement scale must be at least ordinal but for
  2425. an exact test you should use continuous data.
  2426.  
  2427. EXAMPLE (from Conover ref 6 p 370):
  2428.  
  2429.    X       Y
  2430.   7.6     5.2   11.3
  2431.   8.4     5.7   11.5
  2432.   8.6     5.9   12.3
  2433.   8.7     6.5   12.5
  2434.   9.3     6.8   13.4
  2435.   9.9     8.2   14.6
  2436.  10.1     9.1
  2437.  10.6     9.8
  2438.  11.2    10.8
  2439.  
  2440. To analyse these data in Arcus you must first enter them into two worksheet
  2441. columns and label them appropriately.  Then select the two sample Smirnov test
  2442. from the nonparametric methods section of the analysis section.
  2443.  
  2444. For this example:
  2445.  
  2446. two sided p = 0.26
  2447.  
  2448. Thus we can not reject the null hypothesis that the two populations from which
  2449. our samples were drawn have the same distribution function.
  2450.  
  2451. If we were interested in a one sided test then we would need good reason for
  2452. expecting one group to yield values above (distribution shifted to the right of)
  2453. or below (distribution shifted to the left of) the other group.  For these data
  2454. neither of the one tailed tests reached significance.
  2455.  
  2456. ¬<p values>╪29175     ¬
  2457. ¬<reference list>╪310584    ¬
  2458.  
  2459. |Quantile Confidence Intervals|
  2460.  
  2461. This selection from the nonparametric methods menu provides a confidence
  2462. interval for any quantile.  As with all nonparametric confidence intervals, the
  2463. exact confidence level is not always attainable but the level which is exact
  2464. to the interval constructed is displayed (ref 6,11).  Arcus approaches the
  2465. confidence interval from the conservative side, i.e. if the nearest levels to
  2466. 95% are 94.4% and 95.9% then the latter will be chosen.  For sample sizes
  2467. greater than 30 a reliable approximation based on the central limit theorem is
  2468. used (ref 6).  A presentation of medians and their confidence intervals is often
  2469. more meaningful than the time honoured (abused) tradition of presenting means
  2470. and standard deviations.  A box and whisker plot is a useful accompaniment to
  2471. this function.
  2472.  
  2473. EXAMPLE (from Conover ref 6 p 113):  The following represent times to failure
  2474. in hours for a set of pentode radio valves:
  2475.  
  2476.  46.9    56.8     63.3     67.1
  2477.  47.2    59.2     63.4     67.7
  2478.  49.1    59.9     63.7     73.3
  2479.  56.5    63.2     64.1     78.5
  2480.  
  2481. To analyse these data in Arcus you must first enter them into a worksheet
  2482. column and label it appropriately.  Then select the quantile confidence interval
  2483. from the nonparametric methods section of the analysis section.  For a 90%
  2484. confidence interval select the 90% button from the confidence interval menu.
  2485. Then enter 0.75 to specify that the quantile you want is the upper quartile or
  2486. 75th percentile.
  2487.  
  2488. For this example:
  2489.  
  2490. upper quartile = 66.35
  2491. 90% confidence interval = 63.3 to 73.3
  2492. exact confidence level = 90.94%
  2493.  
  2494. We may conclude that with 91% confidence the population value of the upper
  2495. quartile lies between 63.3 and 73.3 hours.
  2496.  
  2497. ¬<confidence intervals>╪31897     ¬
  2498. ¬<reference list>╪310584    ¬
  2499.  
  2500. |Save Ranked Data|
  2501.  
  2502. This function enables you to save the ranks of a worksheet variable into a new
  2503. variable.  The name of this new variable is the name of the source variable
  2504. prefixed with Rk~.  You can choose to calculate a correction factor for ties in
  2505. the ranking.  Four formulae are offered for tie correction:
  2506.  
  2507. 1.      Σ(t3 - t / 12)
  2508. 2.      Σ(t * (t-1) /2)
  2509. 3.      Σ(t * (t-1) * (2t+5))
  2510. 4.      Σ(t * (t-1) * (t-2))
  2511.  
  2512. ...where t is the number of data tied at each tie and upper case sigma (Σ)
  2513. is the summation across these ties.
  2514.  
  2515.  
  2516. EXAMPLE:  Ranking the following agressivity scores for a sample of firstborn
  2517. twins gives:
  2518.  
  2519.       First Born   ----->   Rk~First Born (Ranks)
  2520.       86                    8
  2521.     ┌─71                    3.5
  2522.     │ 77──────┐             6.5
  2523.     │ 68      │             1
  2524.     │ 91─┐    ├tie          11.5
  2525.  tie┤ 72 ├tie │             5
  2526.     │ 77─│────┘             6.5
  2527.     │ 91─┘                  11.5
  2528.     │ 70                    2
  2529.     └─71                    3.5
  2530.       88                    10
  2531.       87                    9
  2532.  
  2533. |Save Sorted Data|
  2534.  
  2535. This function enables you to save the data of a worksheet variable into a new
  2536. variable in a sorted form.  The name of this new variable is the name of the
  2537. source variable prefixed with Sr~.  Sorting may be ascending or descending.
  2538. The sort may also be tied to the data of another variable, i.e. the data in
  2539. variable b may be sorted in the in the order of sorting variable a.  This paired
  2540. sorting can be repeated for any number of columns.
  2541.  
  2542. EXAMPLE:  Sorting the following agressivity scores for a sample of firstborn
  2543. twins in ascending order gives:
  2544.  
  2545.       First Born   ----->   Sr~First Born (Sorted)
  2546.       86                    68
  2547.       71                    70
  2548.       77                    71
  2549.       68                    71
  2550.       91                    72
  2551.       72                    77
  2552.       77                    77
  2553.       91                    86
  2554.       70                    87
  2555.       71                    88
  2556.       88                    91
  2557.       87                    91
  2558.  
  2559. EXAMPLE 2:  Sorting the following agressivity scores for a sample of second
  2560. born twins by the ascending order of the scores for firstborn twins gives:
  2561.  
  2562.       First Born   Second Born    ----->   Sr~Second Born~First Born
  2563.       86           88                      64
  2564.       71           77                      65
  2565.       77           76                      80
  2566.       68           64                      77
  2567.       91           96                      72
  2568.       72           72                      76
  2569.       77           65                      65
  2570.       91           90                      88
  2571.       70           65                      72
  2572.       71           80                      81
  2573.       88           81                      96
  2574.       87           72                      90
  2575.  
  2576.  
  2577. |Save Normal Scores|
  2578.  
  2579. This function enables you to save the normal scores of a worksheet variable
  2580. into a new variable.  The name of this new variable is the name of the source
  2581. variable prefixed with Ns~.  Normal scores are defined here as Z((2k-1)/2n)
  2582. where k is the rank, n is the sample size and Z is a standard normal deviate.
  2583.  
  2584. EXAMPLE:  Scoring the following agressivity scores for a sample of firstborn
  2585. twins using the normal score formula above gives:
  2586.  
  2587.       First Born   ----->   Ns~First Born (normal scores)
  2588.       86                    0.3186
  2589.       71                   -0.6745
  2590.       77                    0
  2591.       68                   -1.7317
  2592.       91                    1.3186
  2593.       72                   -0.3186
  2594.       77                    0
  2595.       91                    1.3830
  2596.       70                   -1.1503
  2597.       71                   -0.6745
  2598.       88                    0.8122
  2599.       87                    0.5485
  2600.  
  2601. |Regression and Correlation|
  2602.  
  2603. This section provides various regression and correlation analyses.  Please note
  2604. that Kendall's and Spearman's correlations are provided in the nonparametric
  2605. methods section.
  2606.  
  2607. ¬<Simple linear>╪124799    ¬
  2608. ¬<Multiple linear>╪129024    ¬
  2609. ¬<Regression in Groups>╪135745    ¬
  2610. ¬<Polynomial>╪144338    ¬
  2611. ¬<Linearized>╪148165    ¬
  2612. ¬<Probit Analysis>╪149788    ¬
  2613. ¬<Non-Linear Models>╪156043    ¬
  2614.  
  2615.  
  2616. REGRESSION
  2617. ~~~~~~~~~~
  2618. Regression is a way of describing how one variable, the so called dependent
  2619. variable, is numerically related to other, so called predictor variables.
  2620. The dependent variable is also referred to as Y and is plotted on the vertical
  2621. axis (ordinate) of a graph.  The predictor variable(s) is(are) also referred
  2622. to as X, independent, prognostic or explanatory variables.  The horizontal
  2623. axis (abscissa) of a graph is used for plotting X.  Predictors are variables
  2624. which we must be able to measure without error and we must have reason to
  2625. assume that the errors associated with measuring Y are randomly distributed.
  2626. All of the conclusions that we draw from regression depend upon the truth of
  2627. these assumptions about error.  The commonest assumption is that the errors in
  2628. Y are from a random normal distribution.  If this assumption is reasonable
  2629. and we suspect that the changes in Y are proportional to the changes in X then
  2630. we can try linear regression:
  2631.  
  2632.  Y (% Growth 70-100 days) │ *
  2633.                           │ * * *
  2634.                           │
  2635.                           │     *
  2636.                           │         *
  2637.                           │              *
  2638.                           │           *         *
  2639.                           │              *    *
  2640.                           │
  2641.                           │                      *  *
  2642.                           └───────────────────────────
  2643.                                       X (Birth Weight)
  2644.  
  2645. Looking at the data like this is a vital first step.  From the graph we
  2646. suspect that low birth weight babies grow faster in the 70-100 days
  2647. interval than their higher birth weight counterparts.  You could almost
  2648. draw a straight line through the points, therefore, assuming growth between
  2649. 70 and 100 days is from a normal distribution we can try to fit a straight
  2650. line equation using simple linear regression on these data:
  2651.  
  2652. Equation: Y = A + BX
  2653.  
  2654. B is the gradient, slope or regression coefficient.
  2655. A is the intercept of the line at Y axis or regression constant.
  2656.  
  2657. The equation describes the best relationship between the POPULATION values of
  2658. X and Y which can be found using this method.  When you have obtained this
  2659. equation it can be used to for prediction and various hypothesis tests.
  2660.  
  2661. N.B. Always think of the biological relevance of this equation, i.e. in our
  2662. example we must not get carried away with the idea that the growth of a baby
  2663. between 70 and 100 days after birth is a simple linear function of their birth
  2664. weight as there are many other variables affecting the babies' growths.  We
  2665. could gather more information to feed into a complex multiple regression
  2666. but it is very unlikely that we could satisfy all of the above assumptions .
  2667. For these reasons data which are not drawn from highly controlled isolated
  2668. experiments must be treated with caution.
  2669.  
  2670. MATHS:  The basic method used to find the regression equation is called least
  2671. squares.  This minimises the sum of the squares of the errors associated with
  2672. each Y point by differentiation.  This error is the difference between the
  2673. observed Y point and the Y point predicted by the regression equation.  In
  2674. linear regression this error is also the error term of the Y distribution, the
  2675. residual error.
  2676.  
  2677. ASSUMPTIONS: X observed without error
  2678.              Y drawn at random from a normal distribution for each X
  2679.              True mean of Y distribution for each Y lies on regression line
  2680.              All Y distributions have same variance (this is homoscedasticity)
  2681.              Y error is independent of X
  2682.  
  2683.  
  2684. CORRELATION
  2685. ~~~~~~~~~~~
  2686. This refers to the interdependence or co-relationship of variables.  In the
  2687. context of our example it looks at the closeness of the linear relationship
  2688. between X and Y.  A measure of this is given by Pearson's product moment
  2689. correlation co-efficient rho.  Rho is called R when it has been estimated
  2690. from a regression on sample data.  R lies between -1 and 1 with 0 for no
  2691. linear correlation, 1 for perfect positive (slope up) linear correlation and
  2692. -1 for perfect negative (slope down) linear correlation.
  2693.  
  2694. N.B. If R is close to ± 1 then this does NOT mean that there is a good causal
  2695. relationship between X and Y.  It just shows that the sample data is close
  2696. to a straight line.  R is a much abused statistic!
  2697.  
  2698. MATHS: R squared is the proportion of the total variance of Y that can be
  2699. explained by the linear regression of Y on X.  1-R² is the proportion that is
  2700. not explained by the regression.  Thus 1-R² = S²XY / S²Y.
  2701.  
  2702. |Simple Linear Regression|
  2703.  
  2704. This provides simple linear regression (Y = A + BX) by the least squares method.
  2705. It is assumed that for each of the X values the corresponding Y values have
  2706. been drawn at random from a normal distribution.  Summary statistics are given
  2707. in full as a springboard for further analysis. Pearson's product moment
  2708. correlation coefficient (r) is given as a measure of association between the
  2709. two variables.  Confidence limits are constructed for the correlation
  2710. coefficient using Fisher's Z transformation. The null hypothesis that r = 0
  2711. (i.e. no association) is evaluated using a modified t test (ref 4, 5).  The
  2712. estimated regression line may be plotted and belts representing the standard
  2713. error and confidence interval for the population value of the slope can be
  2714. displayed.  These belts represent the reliability of the regression estimate,
  2715. the tighter the belt the more reliable the estimate (ref 11).
  2716.  
  2717. NB If you require a weighted linear regression then please use the multiple
  2718. linear regression function in Arcus, it will allow you to use just one
  2719. predictor variable i.e. the simple linear regression situation.  Note also
  2720. that the multiple regression option will allow you to select regression
  2721. without an intercept i.e. forced through the origin.
  2722.  
  2723. EXAMPLE  (from Armitage ref 4 p 148):  The following data represent birth
  2724. weights of babies and their percentage increase between 70 and 100 days after
  2725. birth:
  2726.  
  2727.   X (birth weight oz)     Y (increase in weight 70-100 days as % of X)
  2728.    72                     68
  2729.   112                     63
  2730.   111                     66
  2731.   107                     72
  2732.   119                     52
  2733.    92                     75
  2734.   126                     76
  2735.    80                     118
  2736.    81                     120
  2737.    84                     114
  2738.   115                     29
  2739.   118                     42
  2740.   128                     48
  2741.   128                     50
  2742.   123                     69
  2743.   116                     59
  2744.   125                     27
  2745.   126                     60
  2746.   122                     71
  2747.   126                     88
  2748.   127                     63
  2749.    86                     88
  2750.   142                     53
  2751.   132                     50
  2752.    87                     111
  2753.   123                     59
  2754.   133                     76
  2755.   103                     72
  2756.   106                     90
  2757.   118                     68
  2758.   114                     93
  2759.    94                     91
  2760.  
  2761. To analyse these data in Arcus you must first enter them into two columns in
  2762. the worksheet appropriately labelled.  Then select simple linear regression
  2763. from the regression and correlation menu of the analysis section.  Press enter
  2764. when you are prompted for a confidence interval, this will select the default
  2765. 95% level.
  2766.  
  2767. For this example:
  2768.  
  2769. Y = -0.8643X + 167.8701
  2770. 95% CI for slope = -0.5055 to -1.2231
  2771.  
  2772. r square = 0.4465
  2773. F for regression = 24.2 (p = < 0.0001)
  2774.  
  2775. r = -0.6682
  2776. 95% CI for r = -0.4166 to -0.8248
  2777. two tailed p (for r = 0) = < 0.0001
  2778.  
  2779. From this analysis we have gained the equation for a straight line forced
  2780. through our data i.e. % increase in weight = 167.87 - 0.864 * birth weight.
  2781. The r square value tells us that about 42% of the total variation about the
  2782. Y mean is explained by the regression line.  The analysis of variance test for
  2783. the regression, summarised by the ratio F, shows that the regression itself was
  2784. statistically highly significant.  This is equivalent to a t test with the null
  2785. hypothesis that the slope is equal to zero.  The confidence interval for the
  2786. slope shows that with 95% confidence the population value for the slope lies
  2787. somewhere between -0.5 and -1.2.  The correlation coefficient r was
  2788. statistically highly significantly different from zero.  Its negative value
  2789. indicates that there is an inverse relationship between X and Y i.e. lower
  2790. birth weight babes show greater % increases in weight at 70 to 100 days after
  2791. birth.  With 95% confidence the population value for r lies somewhere between
  2792. -0.4 and -0.8.
  2793.  
  2794. ¬<regression and correlation>╪119789    ¬
  2795. ¬<p values>╪29175     ¬
  2796. ¬<confidence intervals>╪31897     ¬
  2797. ¬<reference list>╪310584    ¬
  2798.  
  2799. |Multiple Linear Regression|
  2800.  
  2801. If you need to study the effect of simultaneous changes in several independent
  2802. variables (e.g. creatinine clearance and mean systolic blood pressure) upon one
  2803. dependent variable (e.g. post-anaesthetic recovery time) then you might find
  2804. multiple linear regression useful.  Arcus uses singular value decomposition to
  2805. solve the linear equations, this is a robust method which optimises accuracy and
  2806. is not stalled by serial correlation.  The multiple regression equation is given
  2807. and the significance of each component parameter is indicated.  There are also
  2808. options for analysis of variance and interpolation.  The analysis of variance
  2809. provides a test of independence for the Y variable in comparison with the X
  2810. variables.  A multiple correlation coefficient is given with the analysis of
  2811. variance.  A logical extension of multiple linear regression is the selection
  2812. of predictor (X, independent) variables.  There are a number of methods which
  2813. deal with this, for example step-up selection, step-down selection, stepwise
  2814. regression and best subset selection.  The fact that there is not a predominantly
  2815. favoured method means that none of them are really satisfactory for general use,
  2816. a good discussion is given by Draper and Smith (ref 23).  The current version
  2817. of Arcus provides best subset selection by examination of all possible
  2818. regressions.  You have the option of two selection criteria, minimum Mallow's
  2819. Cp statistic or maximum overall F.  You may also force the inclusion of
  2820. variables in this selection procedure if you consider their exclusion to be
  2821. illogical in "real world" terms (ref 23).
  2822.  
  2823.  
  2824. EXAMPLE (from Armitage ref 4 p 300):  The following data are from a trial of
  2825. a hypotensive drug used to lower blood pressure during surgery.  The outcome /
  2826. dependent variable (Y) is minutes taken to recover an acceptable (100mmHg)
  2827. systolic blood pressure and the two predictor or explanatory variables are,
  2828. log dose of drug (X1) and mean systolic blood pressure during the induced
  2829. hypotensive episode (X2).
  2830.  
  2831.  X1     X2     Y
  2832.  2.26   66      7
  2833.  1.81   52     10
  2834.  1.78   72     18
  2835.  1.54   67      4
  2836.  2.06   69     10
  2837.  1.74   71     13
  2838.  2.56   88     21
  2839.  2.29   68     12
  2840.  1.80   59      9
  2841.  2.32   73     65
  2842.  2.04   68     20
  2843.  1.88   58     31
  2844.  1.18   61     23
  2845.  2.08   68     22
  2846.  1.70   69     13
  2847.  1.74   55      9
  2848.  1.90   67     50
  2849.  1.79   67     12
  2850.  2.11   68     11
  2851.  1.72   59      8
  2852.  1.74   68     26
  2853.  1.60   63     16
  2854.  2.15   65     23
  2855.  2.26   72      7
  2856.  1.65   58     11
  2857.  1.63   69      8
  2858.  2.40   70     14
  2859.  2.70   73     39
  2860.  1.90   56     28
  2861.  2.78   83     12
  2862.  2.27   67     60
  2863.  1.74   84     10
  2864.  2.62   68     60
  2865.  1.80   64     22
  2866.  1.81   60     21
  2867.  1.58   62     14
  2868.  2.41   76      4
  2869.  1.65   60     27
  2870.  2.24   60     26
  2871.  1.70   59     28
  2872.  2.45   84     15
  2873.  1.72   66      8
  2874.  2.37   68     46
  2875.  2.23   65     24
  2876.  1.92   69     12
  2877.  1.99   72     25
  2878.  1.99   63     45
  2879.  2.35   56     72
  2880.  1.80   70     25
  2881.  2.36   69     28
  2882.  1.59   60     10
  2883.  2.10   51     25
  2884.  1.80   61     44
  2885.  
  2886. To analyse these data in Arcus you must first enter them into three columns in
  2887. the worksheet appropriately labelled.  Then select multiple linear regression
  2888. from the regression and correlation menu of the analysis section.  Press Esc
  2889. when you are asked for the standard deviations of Y, i.e. selecting an
  2890. unweighted analysis.  Press Y when you are asked whether you want an intercept,
  2891. one can rarely find a good enough reason not to have an intercept.
  2892.  
  2893. For this example:
  2894.  
  2895. Y = 23.01 + 23.639 X1 - 0.715 X2
  2896.  
  2897. Intercept   b0 =  23.01067   (p = 0.214)
  2898.        X1   b1 =  23.63856   (p = 0.001)
  2899.        X2   b2 = - 0.71468   (p = 0.022)
  2900.  
  2901. r square = 0.2018
  2902. r square adjusted = 0.1699
  2903.  
  2904. F = 6.32 (p = 0.001)
  2905.  
  2906. The variance ratio, F, for the overall regression is highly significant thus we
  2907. have very little reason to doubt that either X1 or X2 is, or both are,
  2908. associated with Y.  The r square value shows that only 20% of the variance of
  2909. Y is accounted for by the regression, therefore the predictive value of this
  2910. model is low.  The partial correlation coefficients are shown to be significant
  2911. but the intercept is not.
  2912.  
  2913. Arcus offers more facilities for general linear regression than I have shown
  2914. here.  The use of these facilities requires a reasonable background knowledge
  2915. of general linear models and their assumptions.  For this reason I shall not
  2916. discuss all of these facilities with examples, the experienced user will be
  2917. familiar with these facilities.  A good reference is Draper & Smith ref 23.
  2918.  
  2919. In summary, these facilities are:
  2920.  
  2921. 1.  Best subset selection.  When you have many predictor variables you can ask
  2922.     Arcus to select the subset of predictor variables which gives the "best"
  2923.     fitting model as judged by Mallow's Cp statistic or the overall significance
  2924.     of the regression.  Mallow's Cp is favoured in most situations.
  2925.  
  2926. 2.  XXi matrix.  This prints out the XXi or Hat / projection matrix of the
  2927.     linear model.  Double precision is displayed as the singular value
  2928.     decomposition of this general linear regression is performed in double
  2929.     precision.
  2930.  
  2931. 3.  Influential data.  This gives an analysis of residuals and allows you to
  2932.     save the residuals and their associated statistics.  It is good practice to
  2933.     examine a plot of the residuals against Y.  You might also wish to have a
  2934.     normal plot of the residuals, this is available in the pictorial statistics
  2935.     menu of the Arcus analysis section.  Along with the residuals you are given
  2936.     the standard error of the predicted Y, the leverage Hi (the ith diagonal
  2937.     element of the Hat matrix), Studentized residuals,  Cook's distance ,
  2938.     covariance and DFFITS.  Note that Studentized residuals have a t
  2939.     distribution with n-p-1 degrees of freedom.  If Hi is larger than 2p/n then
  2940.     that observation has unusual predictor values.  Unusual predicted as
  2941.     opposed to predictor values are indicated by large residuals.  Cook's
  2942.     distance and DFFITS combine these factors in an overall measure.  Cook's D
  2943.     can be considered large if it exceeds F (0.50, p, n-p) from the F
  2944.     distribution.  DFFITS is unusually large if it is greater than 2 * SQR(p/n).
  2945.     Unusual covariance ratios are considered to lie outside the range
  2946.     1 - 3 * (n/p) to 1 + 3 * (n/p).  A good discussion of the analysis of
  2947.     residuals is given by Belsley et al. ref 32.  In this paragraph p = number
  2948.     of coefficients in the model (including constant) and n = number of
  2949.     observations.
  2950.  
  2951.  
  2952. ¬<p values>╪29175     ¬
  2953. ¬<confidence intervals>╪31897     ¬
  2954. ¬<reference list>╪310584    ¬
  2955.  
  2956. |Regression in Groups|
  2957.  
  2958. ¬<Linearity with replicates of Y>╪136133    ¬
  2959. ¬<Grouped linear regression with covariance analysis>╪139152    ¬
  2960.  
  2961. This sub-section provides grouped linear regression and analysis of covariance.
  2962. There is also a test for linearity when repeated observations of the Y
  2963. (dependent) variable are available for each observation in the X (independent)
  2964. variable.
  2965.  
  2966. |Linearity with replicates of Y|
  2967.  
  2968. The standard analysis of variance for a linear regression tells you about the
  2969. significance of the slope but it does not test whether or not you should be
  2970. using linear regression in the first place.  Here we provide a method which
  2971. can be used to test the assumption of linearity.
  2972.  
  2973. In important studies which utilise linear regression it is worth collecting
  2974. repeat Y observations.  This enables you to run a test of linearity and thus
  2975. justify or refute the use of linear regression in subsequent analysis of these
  2976. data (ref 4).  The replicate Y observations should be entered in separate
  2977. worksheet columns (variables), one column for each observation (row) in the X
  2978. variable.  The number of Y replicate variables which you are prompted to
  2979. choose is governed by the size of the X variable which you have selected.
  2980.  
  2981. EXAMPLE  (from Armitage, ref. 4  p268):  A preparation of vitamin D is
  2982. tested by feeding it to rats with induced osteomalacia and measuring the
  2983. subsequent re-mineralisation of their bones using radiographic methods:
  2984.  
  2985. Log dose of Vit D ---> 0.544     0.845     1.146
  2986.  
  2987. Bone density score --> 0         1.5       2
  2988.                        0         2.5       2.5
  2989.                        1         5         5
  2990.                        2.75      6         4
  2991.                        2.75      4.25      5
  2992.                        1.75      2.75      4
  2993.                        2.75      1.5       2.5
  2994.                        2.25      3         3.5
  2995.                        2.25                3
  2996.                        2.5                 2
  2997.                                            3
  2998.                                            4
  2999.                                            4
  3000.  
  3001. To analyse these data in Arcus you must first enter them into four columns in
  3002. the worksheet appropriately labelled.  The first column is just three rows long
  3003. and contains the three log doses of vitamin D above.  The next three columns
  3004. represent the repeated measures of bone density for each of the three levels
  3005. of log dose of vitamin D which are represented by the rows of the first column.
  3006. Then select the linearity function from the regression in groups sub-menu of the
  3007. regression and correlation menu in the analysis section.  When you are prompted
  3008. for the X variable select the column which contains the three log dose levels.
  3009. Then select the three Y columns which correspond to each row (level) of the
  3010. X variable i.e. 0.544 --> 0.845 --> 1.146.
  3011.  
  3012. For this example:
  3013.  
  3014. Due to regression         F = 9.45 (p = 0.0047)
  3015. Deviations from X means   F = 1.95 (p = 0.1738)
  3016.  
  3017. Thus the regression itself (meaning the slope) was statistically highly
  3018. significant.  If the deviations from X means had been significant then we
  3019. should have rejected our assumption of linearity, as it stands they were not.
  3020. Arcus gives you plain English interpretations of these results directly.
  3021.  
  3022. ¬<p values>╪29175     ¬
  3023. ¬<non-linear models>╪156043    ¬
  3024. ¬<reference list>╪310584    ¬
  3025.  
  3026. |Grouped linear regression with covariance analysis|
  3027.  
  3028. The grouped regression function enables you to compare regression lines. Again
  3029. it is assumed that for each of the X values the corresponding Y values have been
  3030. drawn at random from a normal distribution.  The method involves examination of
  3031. the regression parameters for a group of XY pairs in relation to a common fitted
  3032. function.  This provides an analysis of variance which shows whether there is
  3033. a significant difference between the slopes of the individual regression lines
  3034. as a whole.  Arcus then compares all of the slopes individually.  The vertical
  3035. distance between each regression line is then examined using analysis of
  3036. covariance and the corrected means are given (ref 4)  This is just one facet of
  3037. the analysis of covariance and there exist alternative methods.  For further
  3038. information please consult good references such as Draper & Smith (ref 23) and
  3039. Armitage & Berry (ref 4).
  3040.  
  3041. EXAMPLE (from Armitage ref. 4  p 277):  Three preparations of vitamin D are
  3042. tested by feeding them to rats with induced osteomalacia and measuring the
  3043. subsequent re-mineralisation of their bones using radiographic methods:
  3044.  
  3045. For the standard preparation:
  3046. Log dose of Vit D ---> 0.544     0.845     1.146
  3047.  
  3048. Bone density score --> 0         1.5       2
  3049.                        0         2.5       2.5
  3050.                        1         5         5
  3051.                        2.75      6         4
  3052.                        2.75      4.25      5
  3053.                        1.75      2.75      4
  3054.                        2.75      1.5       2.5
  3055.                        2.25      3         3.5
  3056.                        2.25                3
  3057.                        2.5                 2
  3058.                                            3
  3059.                                            4
  3060.                                            4
  3061.  
  3062. For alternative preparation I:
  3063. Log dose of Vit D ---> 0.398     0.699     1.000     1.301     1.602
  3064.  
  3065. Bone density score --> 0         1         1.5       3         3.5
  3066.                        1         1.5       1         3         3.5
  3067.                        0         1.5       2         5.5       4.5
  3068.                        0         1         3.5       2.5       3.5
  3069.                        0         1         2         1         3.5
  3070.                        0.50      0.5       0         2         3
  3071.  
  3072.  
  3073. For alternative preparation F:
  3074. Log dose of Vit D ---> 0.398     0.699     1.000
  3075.  
  3076. Bone density score --> 2.75      2.5       3.75
  3077.                        2         2.75      5.25
  3078.                        1.25      2.25      6
  3079.                        2         2.25      5.5
  3080.                        0         3.75      2.25
  3081.                        0.5                 3.5
  3082.  
  3083. To analyse these data in Arcus you must first enter them into 14 columns in
  3084. the worksheet appropriately labelled.  The first column is just three rows long
  3085. and contains the three log doses of vitamin D for the standard preparation.
  3086. The next three columns represent the repeated measures of bone density for each
  3087. of the three levels of log dose of vitamin D which are represented by the rows
  3088. of the first column.  This is then repeated for the other two preparations.
  3089. Then select the grouped linear regression function from the regression in groups
  3090. sub-menu of the regression and correlation menu in the analysis section.  Enter
  3091. 3 as the number of XY pairs and select Y when asked if you wish to use
  3092. replicates.  When you are prompted for the first X variable select the column
  3093. which contains the three log dose levels for the standard preparation.  Then
  3094. select the three Y columns which correspond to each row (level) of the X
  3095. variable for the standard preparation i.e. 0.544 --> 0.845 --> 1.146.
  3096.  
  3097. Alternatively these data could have been entered in just three pairs of
  3098. worksheet columns representing the three preparations with a log dose column
  3099. and column of the mean bone density score for each dose level.  By accepting
  3100. the more long winded input of replicates Arcus is encouraging you to run a
  3101. test of linearity on your data.
  3102.  
  3103. For this example:
  3104.  
  3105. common slope    p = < 0.0001
  3106. between slopes  p =   0.1510
  3107.  
  3108. slope comparisons: standard vs I  p = 0.4195
  3109.                    standard vs F  p = 0.0379
  3110.                    I vs F         p = 0.0325
  3111.  
  3112. corrected covariance analysis:
  3113. F = 1.69  (p = 0.2510)
  3114.  
  3115. vertical separations: standard vs I  p = 0.3070
  3116.                       standard vs F  p = 0.4345
  3117.                       I vs F         p = 0.2493
  3118.  
  3119. The common slope is highly significant and the test for difference between the
  3120. slopes overall was non-significant.  Provided that our assumption of linearity
  3121. holds true we can conclude that these lines are reasonably parallel.  Looking
  3122. more closely at the individual slopes preparation F is shown to be significantly
  3123. different from the other two but this difference was not large enough to throw
  3124. the overall slope comparison into a significant heterogeneity.
  3125.  
  3126. The analysis of covariance did not show any significant vertical separation of
  3127. the three regression lines.
  3128.  
  3129. ¬<p values>╪29175     ¬
  3130. ¬<reference list>╪310584    ¬
  3131.  
  3132. |Polynomial Regression|
  3133.  
  3134. If you have reason to believe that a polynomial model is appropriate to your
  3135. data then you can use this function to construct one.  You supply the number
  3136. of degrees (order) of the polynomial and Arcus gives you the coefficient for
  3137. each degree of the equation together with the constant. Subjective goodness of
  3138. fit may be assessed by plotting the data and the fitted curve.  Try to use as
  3139. few degrees as possible for a model which achieves significance at each degree.
  3140. Regression is by singular value decomposition (ref 23, 14).  An analysis of
  3141. variance is given via the analysis option.  There is also an option which
  3142. calculates the area under the curve.  The polynomial function which has been
  3143. fitted is integrated from the lowest to the highest X value using Romberg's
  3144. method to give an area under the fitted curve.  The trapezoidal rule is also
  3145. used directly on the vector to give another estimate of the area under the
  3146. curve.  The plot function supplies visual confidence and prediction intervals
  3147. but you can save the predicted Y values with their errors and intervals by
  3148. selecting option [6].
  3149.  
  3150. If you require more detail from the regression, such as an analysis of the
  3151. residuals, then you should use the multiple linear regression option.  To
  3152. achieve a polynomial fit using multiple linear regression you must first
  3153. create new worksheet columns which contain the X variable raised to powers
  3154. up to the degree you want.  For example,  a second order fit requires Y,
  3155. X and X * X.
  3156.  
  3157. EXAMPLE:  (from Statistics ref 34 p 753):  Here we will use a non-biomedical
  3158. example to emphasise the point that polynomial regression is more often
  3159. applicable to data from the physical sciences where variables are more
  3160. controllable.  Below are the electricity consumption data in kilowatt hours
  3161. per month from ten houses and the areas in square feet of these houses:
  3162.  
  3163.  House area    KW-hours per month
  3164.  1290          1182
  3165.  1350          1172
  3166.  1470          1264
  3167.  1600          1493
  3168.  1710          1571
  3169.  1840          1711
  3170.  1980          1804
  3171.  2230          1840
  3172.  2400          1956
  3173.  2930          1954
  3174.  
  3175. To analyse these data in Arcus you must first prepare them in two worksheet
  3176. columns appropriately labelled.  Then select polynomial regression from the
  3177. regression and correlation menu of the analysis section.  The X (independent)
  3178. variable is house area and the Y (dependent) variable is KW-hours per month.
  3179. Enter the order of this polynomial as 2.
  3180.  
  3181. For this example:
  3182.  
  3183. KW-hours = -1216.14389 + 2.39893 * area - 0.00045 * area * area
  3184.  
  3185. F = 189.71  (p < 0.0001)
  3186.  
  3187. Root MSE = 46.801
  3188.  
  3189. R sqr = 0.9819
  3190.  
  3191. for intercept  p = 0.0016
  3192.     X          p < 0.0001
  3193.     X*X        p = 0.0001
  3194.  
  3195. Thus the overall regression and both degree coefficients are highly significant.
  3196.  
  3197. NB  Look at a plot of this data curve.  The right hand end point shows a very
  3198.     sharp decline.  If you were to extrapolate beyond the data you have observed
  3199.     then you might conclude that very large houses have a very low electricity
  3200.     consumption.  This is obviously ludicrous.  Polynomials are often well out
  3201.     of line with common sense in parts of the curve but seem to fit other parts
  3202.     well.  You must blend common sense, art and mathematics when fitting these
  3203.     models!  Remember that, a) your model will be much more reliable if it is
  3204.     built around large numbers of observations,  b) do not extrapolate beyond
  3205.     your observations,  c) choose numbers for X which are not too large as they
  3206.     will cause overflow with higher degree polynomials,  d) do not draw false
  3207.     confidence from low p values, only use these to support your model if the
  3208.     plot looks good!
  3209.  
  3210. ¬<p values>╪29175     ¬
  3211. ¬<non-linear models>╪156043    ¬
  3212. ¬<reference list>╪310584    ¬
  3213.  
  3214. |Linearized Estimates|
  3215.  
  3216. This section provides regression estimates for three linearised functions by
  3217. an unweighted least squares method.  This approach is far from ideal and should
  3218. be used only to indicate that a more robust fit of the selected model might be
  3219. appropriate for your data.  Exponential, geometric and hyperbolic approximations
  3220. are offered.
  3221.  
  3222. For the exponential model the data are linearized by log transformation of
  3223. the independent variable and the linear regression gives you A and B for the
  3224. function Y = A * exp(B * X).
  3225.  
  3226. For the geometric method the natural logarithms of both variables are
  3227. linearly regressed for Y = A * (X ^B).
  3228.  
  3229. The hyperbolic method uses the reciprocals of both variables to calculate A and
  3230. B for Y = X / (A + B * X).
  3231.  
  3232. The standard error of the estimate is given for each of these regressions
  3233. but please note that the errors of your dependent / response variable might
  3234. not be from a normal distribution.
  3235.  
  3236. This section of Arcus is only intended for those who are familiar with
  3237. regression modelling and who use these linearized estimates as a springboard
  3238. for further modelling.  For these reasons we will not work through an example
  3239. here.  For generalized linear modelling I recommend the products of The Numerical
  3240. Algorithms Group and Rothamstead Experimental Station, these are GLIM and
  3241. Genstat.  For non-linear modelling I recommend MLP and Genstat.  For information
  3242. on all of these products contact NAG on UK (0)865 511 245.
  3243.  
  3244. ¬<p values>╪29175     ¬
  3245. ¬<confidence intervals>╪31897     ¬
  3246. ¬<non-linear models>╪156043    ¬
  3247. ¬<reference list>╪310584    ¬
  3248.  
  3249. |Probit Analysis|
  3250.  
  3251. When biological responses are plotted against their causal stimuli (or
  3252. logarithms of them) they often describe a sigmoid curve.  Methods have been
  3253. developed which linearize this relationship so that they are easier to deal
  3254. with numerically.  This linearization can be achieved using a number of
  3255. transformations including logit, probit and angular.  For most systems the
  3256. probit (normal sigmoid) and logit (logistic sigmoid) give the most closely
  3257. fitting result.  Logistic methods are also useful in Epidemiology because
  3258. odds ratios can be determined easily from differences between fitted logits.
  3259. In biological assay, however, probit analysis is preferable (ref 18, 19).
  3260. Curves produced by these methods are very similar, with maximum variation
  3261. occurring within 10% of the upper and lower asymptotes.  Historically some
  3262. workers have used logistic regression because it is easier to calculate than
  3263. probit analysis, this is no longer true with the aid of computers.
  3264.  
  3265. Probit analysis has been added to Arcus to provide dose/stimulus - response
  3266. curve fitting.  Your data are entered as dose levels, number of subjects tested
  3267. at each dose level and number responding at each dose level.  You are also
  3268. given the opportunity to enter a control result for the number of subjects
  3269. responding in the absence of dose/stimulus - this provides a global adjustment
  3270. for natural mortality/responsiveness.  You are also asked whether you want log
  3271. transformation of the dose levels or not.  The curve is then fitted by Newton
  3272. -Raphson iteration.  The quality of the resultant curve is assessed by
  3273. statistics for heterogeneity which follow a chi-square distribution.  If these
  3274. are significant then your observed values deviate from the fitted curve too
  3275. much for reliable inference to be made from that curve (ref 18, 19).  Arcus
  3276. gives you the effective/lethal levels of dose/stimulus with confidence intervals
  3277. at the quantiles you specify.  The fitted curve can be plotted and printed.
  3278.  
  3279. If you require more complex probit analysis, such as the calculation of
  3280. relative potencies from several related dose response curves, then you should
  3281. consider using non-linear optimization software or specialist dose-response
  3282. analysis software such as Bliss.  The latter is a FORTRAN routine written by
  3283. David Finney and Ian Craigie, it is available from Edinburgh University
  3284. Computing Centre.  If you are considering using Bliss then you must be familiar
  3285. with FORTRAN and the basic principles of probit analysis (ref 18, 19).  For more
  3286. general non-linear model fitting with the ability to constrain curves to
  3287. "parallelism" then I advise you to use MLP or Genstat.  At this point most
  3288. people should seek statistical help.  More information is available under the
  3289. notes on ¬non-linear models╪156043    ¬.
  3290.  
  3291. CAUTION:  Please do not think of probit analysis as a "cure all" for dose
  3292. response curves.  Many log dose - response relationships are clearly not
  3293. Gaussian sigmoids.  They may not be any of the other sigmoids either, e.g.
  3294. angular, Wilson-Worcester or Cauchy-Urban.  You may not be able to use a
  3295. regression model "off the shelf".  This brings us to the complex subject of
  3296. non-linear modelling.  At this point most people should seek statistical help.
  3297. Please refer to the notes on ¬non-linear models╪156043    ¬.
  3298.  
  3299. CAUTION 2:  Please remember that this form of probit analysis is designed to
  3300. handle only quantal responses with binomial error distributions.  Quantal data,
  3301. such as the number of subjects responding vs total number of subjects tested,
  3302. usually have binomial error distributions.  You must NOT use continuous data,
  3303. such as % maximal response, with probit analysis as these data require
  3304. regression methods which assume a different error distribution.  Again, at this
  3305. point most people should seek statistical help.  Please refer to the notes on
  3306. ¬non-linear models╪156043    ¬.
  3307.  
  3308. EXAMPLE (from Finney ref 18 p 98):  The following data represent a study of the
  3309. age at menarche of 3918 Warsaw girls.  For each age group you are given mean
  3310. age, total number of girls and the number of girls who had reached menarche.
  3311.  
  3312.  Age            Girls          + Menses
  3313.  9.21           376            0
  3314.  10.21          200            0
  3315.  10.58          93             0
  3316.  10.83          120            2
  3317.  11.08          90             2
  3318.  11.33          88             5
  3319.  11.58          105            10
  3320.  11.83          111            17
  3321.  12.08          100            16
  3322.  12.33          93             29
  3323.  12.58          100            39
  3324.  12.83          108            51
  3325.  13.08          99             47
  3326.  13.33          106            67
  3327.  13.58          105            81
  3328.  13.83          117            88
  3329.  14.08          98             79
  3330.  14.33          97             90
  3331.  14.58          120            113
  3332.  14.83          102            95
  3333.  15.08          122            117
  3334.  15.33          111            107
  3335.  15.58          94             92
  3336.  15.83          114            112
  3337.  17.58          1049           1049
  3338.  
  3339. To analyse these data in Arcus you must first prepare them in three worksheet
  3340. columns appropriately labelled.  Then select probit analysis from the regression
  3341. and correlation menu of the analysis section.  "Dose" levels here are the mean
  3342. ages, number in each group are the number of girls and number responding are
  3343. the number + menses.  Select probit as the sigmoid model.  Then select a 95%
  3344. confidence interval by pressing the enter key when you see the confidence
  3345. interval menu.  Select N when asked whether or not you require logarithmic
  3346. conversion of the independent variable (mean ages).
  3347.  
  3348. For this example:
  3349.  
  3350. Y = -6.8189 + 0.9078 X  in probits
  3351. heterogeneity of deviations from model  p = 0.5262
  3352.  
  3353. ED50:
  3354. The estimated median age at menarche = 13.02  (95% CI = 12.94 to 13.09)
  3355.  
  3356. Having looked at a plot of this model and accepted it as appropriate we can
  3357. conclude with 95% confidence that the true population value for median age at
  3358. menarche in Warsaw lay between 12.94 and 13.09 years when this study was done.
  3359.  
  3360. ¬<p values>╪29175     ¬
  3361. ¬<confidence intervals>╪31897     ¬
  3362. ¬<non-linear models>╪156043    ¬
  3363. ¬<reference list>╪310584    ¬
  3364.  
  3365. |Non-Linear Models|
  3366.  
  3367. Biomedical research reveals many relationships which are inherently non-linear.
  3368. One way of dealing with this is to transform variables so that the relationship
  3369. between them approximates linearity.  This works well in many cases but is not
  3370. possible in others.
  3371.  
  3372. One of the greatest problems you face when fitting transformed variables is that
  3373. errors you assumed to be normal in the non-transformed variable become
  3374. non-normal after transformation.  In specific cases such as the probit analysis
  3375. in Arcus, this has been anticipated and the error calculations have been
  3376. designed to cope with the expected error distribution.  It is not advisable to
  3377. feed transformed variables through linear regression.  If you are confident of
  3378. a particular model then you are justified in using a generalised linear model
  3379. method to fit your data.  Examples of this are probit analysis and logistic
  3380. regression.  Please note that the current version of Arcus Pro-Stat does not
  3381. offer multiple logistic regression.  A multiple logistic regression module is
  3382. under development for the next version of Arcus Pro-Stat.  SAS, Genstat and
  3383. GLIM have logistic regression functions.
  3384.  
  3385. If you need to develop a non-linear model for your data then you MUST know what
  3386. you are doing.  This is a highly complex area which blends gut feeling, art and
  3387. science.  Please seek statistical advice if you want to build non-linear models.
  3388. It is not the place of Arcus to cover this large and highly specialised field,
  3389. you should seek out a well validated non-linear estimation package that is
  3390. supported by experts in the field.  The only such packages I have found are
  3391. MLP and Genstat.  The former is a dedicated non-linear estimation package of
  3392. academic excellence from Gavin Ross at Rothamsted Experimental Station.  He is
  3393. widely published in this field and in my opinion both MLP and his book (ref 34)
  3394. represent the state of the art in practical non-linear modelling.  Genstat
  3395. is a general stats package which includes many of the functions of MLP because
  3396. it also comes from Rothamstead.  Genstat is not as easy to use as Arcus but it
  3397. covers a number of specialist areas which Arcus does not.  I would recommend
  3398. Genstat as a good partner to Arcus.
  3399.  
  3400.  
  3401. Nota Bene!!  PLEASE BEWARE OF PACKAGES WHICH CLAIM TO BE "BLACK BOXES" FOR
  3402.              NON-LINEAR MODELLING, THIS IS NOT POSSIBLE AT PRESENT (1994).
  3403.  
  3404.  
  3405. For more information on GenStat, MLP or GLIM please contact the Numerical
  3406. Algorithms Group on UK (0)865 511 245.
  3407.  
  3408. |Analysis of Variance|
  3409.  
  3410. ¬<One way>╪162596    ¬
  3411. ¬<Two way>╪164960    ¬
  3412. ¬<Two way with replicates>╪167988    ¬
  3413. ¬<Crossover>╪171202    ¬
  3414. ¬<Kruskal-Wallis>╪174413    ¬
  3415. ¬<Friedman>╪177293    ¬
  3416.  
  3417. Analysis of variance (ANOVA) represents a group of methods for investigating
  3418. how the means of variables are affected by the way in which those variables are
  3419. classified.  In practical terms, you can test for an overall difference between
  3420. the population means for a group of samples within the constraints of a given
  3421. experimental design.  Arcus then allows you to make individual comparisons
  3422. between each of the groups using methods which have been designed for the
  3423. multiple comparison or simultaneous inference situation.  When multiple
  3424. comparisons are made you are in danger of type I error when using t tests alone,
  3425. thus, more conservative approaches are required.  Arcus offers you the methods
  3426. due to Scheffé, Newman-Keuls and gives Bonferroni's limitation with the t tests
  3427. (ref 4, 13, 22).  With the Newman-Keuls method, means are first ordered in
  3428. sequence then each possible discrete comparison is made.  The probability
  3429. associated with the resultant q values are then derived from the Studentized
  3430. range.  For Scheffé's test all possible linear contrasts are also made
  3431. automatically.  Please note that this is a controversial area in statistics and
  3432. you would be wise to seek the advice of a statistician before you design your
  3433. study.  In general you should design experiments so that you can avoid having
  3434. to "dredge" groups of data for differences, decide which contrasts you are
  3435. interested in at the outset.  An excellent account of ANOVA is given by
  3436. Armitage & Berry (ref 4).  The nonparametric alternatives to ANOVA are also
  3437. covered in this section.
  3438.  
  3439. BEYOND ARCUS:
  3440.  
  3441. If each treatment/exposure factor in your design contains sub-factors of
  3442. treatment/exposure groups then you should consider a nested hierarchical
  3443. analysis of variance.  This design is not covered by the present version of
  3444. Arcus, SAS gives a reasonably good implementation of it.
  3445.  
  3446.           Hospital 1                   Hospital 2
  3447.               *                            *
  3448.     ward 1  ward 2   ward 3     ward 1   ward 2   ward 3
  3449.       x       x        x          x        x        x     <--- patients
  3450.       x       x        x          x        x        x
  3451.       x       x        x          x        x        x
  3452.       x       x                   x        x        x
  3453.       x                           x                 x
  3454.       x                                             x
  3455.  
  3456. If your design represents repeated exposures/treatments for two different
  3457. categorisations then you should consider a Latin square design.  An example of
  3458. this is the response of 5 different rats (factor 1) to 5 different treatments
  3459. (repeated blocks) when housed in 5 different types of cage (factor 2).
  3460.  
  3461.          Rat 1   2   3   4   5
  3462.     Cage
  3463.        1     A   E   C   D   A
  3464.        2     E   B   A   B   C
  3465.        3     C   D   E   D   D
  3466.        4     D   C   B   C   B
  3467.        5     B   A   D   A   E
  3468.  
  3469.  
  3470. For designs with complete missing blocks you should consider a balanced
  3471. incomplete block design provided the number of missing blocks does not exceed
  3472. the number of treatments.
  3473.  
  3474.               Block  1    2    3    4
  3475.     Treatment   A    x    x    x
  3476.                 B    x    x         x
  3477.                 C    x         x    x
  3478.                 D         x    x    x
  3479.  
  3480.  
  3481. If all factor levels in a design are of intrinsic interest rather than some
  3482. form of randomised blocking then you should consider a factorial design.
  3483. Factorial ANOVA can combine levels into treatments, a simple application of
  3484. this is the crossover ANOVA which is offered by Arcus.  More complex factorial
  3485. designs require careful planning and I would advise you to seek statistical
  3486. advice at this stage.
  3487.  
  3488. These ANOVA designs are not covered by the current version of Arcus.  SAS offers
  3489. a range of complex ANOVA's and BMDP covers most.
  3490.  
  3491. |One Way|
  3492.  
  3493. Imagine you have four groups of data which represent one experiment performed
  3494. on four different occasions with ten different subjects each time.  You can
  3495. test the consistency of the experimental conditions or the inherent error of
  3496. the experiment using a one way analysis of variance.  This assumes that each
  3497. group comes from an approximately normal distribution and that the variability
  3498. within the groups is roughly constant. The factors are arranged so that
  3499. experiments are columns and subjects are rows, this is how you must enter your
  3500. data in the Arcus worksheet.  The F test is fairly robust to small deviations
  3501. from these assumptions but you could use the ¬Kruskal-Wallis╪174413    ¬ test if there was
  3502. any doubt.  A significant test indicates a difference between the population
  3503. means for the groups as a whole. You may then go on to make ¬multiple contrasts╪180310    ¬
  3504. between the groups but this "dredging" should be avoided if possible.  If the
  3505. groups in this example had been a series of treatments / exposures to which
  3506. subjects (blocks) were randomly allocated then a two way randomised block design
  3507. ANOVA should have been used.
  3508.  
  3509. EXAMPLE (from Armitage ref 4 p 193):
  3510.  
  3511. The following data represent the numbers of worms isolated from the GI tracts
  3512. of four groups of rats in a trial of carbon tetrachloride as an anthelminthic.
  3513. These four groups were the control (untreated) groups:
  3514.  
  3515.  Expt 1    Expt 2    Expt 3    Expt 4
  3516.  279       378       172       381
  3517.  338       275       335       346
  3518.  334       412       335       340
  3519.  198       265       282       471
  3520.  303       286       250       318
  3521.  
  3522. To analyse these data in Arcus you must first prepare them in four worksheet
  3523. columns appropriately labelled.  Then select the one way function from the
  3524. analysis of variance menu of the analysis section.  Enter the number of groups
  3525. as four.
  3526.  
  3527. For this example:
  3528.  
  3529. F = 2.27  p= 0.1195
  3530.  
  3531. The null hypothesis that there is no difference in mean worm counts across the
  3532. four groups is held.  If we had rejected this null hypothesis then we would
  3533. have had to take a close look at the experimental conditions to make sure that
  3534. all control groups were exposed to the same conditions.
  3535.  
  3536. ¬<p values>╪29175     ¬
  3537. ¬<multiple contrasts>╪180310    ¬
  3538. ¬<analysis of variance>╪158578    ¬
  3539. ¬<reference list>╪310584    ¬
  3540.  
  3541. |Two Way|
  3542.  
  3543. If your data are classified simultaneously by two factors such that each level
  3544. of one factor can be combined with all levels of the other factor then a two way
  3545. ANOVA might be appropriate.  If one of these factors represents treatments/
  3546. exposures and the other represents experimental subjects which have been
  3547. randomly allocated to each of these treatments then you are justified in using
  3548. a randomised block design.  The factors are arranged so that treatments are
  3549. columns and subjects are rows, this is how you must enter your data in the Arcus
  3550. worksheet.  The warnings above concerning multiple comparison methods apply here
  3551. also.  There is no special provision for substitution of missing data in the
  3552. simple two way ANOVA, a row containing a missing value is simply left out of
  3553. the analysis.
  3554.  
  3555. If you wish to use a two way ANOVA but your data are clearly non-normal then
  3556. you should consider the nonparametric alternative due to Milton ¬Friedman╪177293    ¬.
  3557.  
  3558. EXAMPLE  (from Armitage ref 4 p 218):
  3559.  
  3560. The following data represent clotting times (mins) of plasma from eight subjects
  3561. treated in four different ways.  The eight subjects (blocks) were allocated at
  3562. random to each of the four treatment groups:
  3563.  
  3564.   Treatment 1    Treatment 2    Treatment 3    Treatment 4
  3565.   8.4            9.4            9.8            12.2
  3566.   12.8           15.2           12.9           14.4
  3567.   9.6            9.1            11.2           9.8
  3568.   9.8            8.8            9.9            12
  3569.   8.4            8.2            8.5            8.5
  3570.   8.6            9.9            9.8            10.9
  3571.   8.9            9              9.2            10.4
  3572.   7.9            8.1            8.2            10
  3573.  
  3574. To analyse these data in Arcus you must first prepare them in four worksheet
  3575. columns appropriately labelled.  Then select two way from the analysis of
  3576. variance menu of the analysis section.  Enter the number of groups as four.
  3577.  
  3578. For this example:
  3579.  
  3580. F (VR between subjects) =  17.2042   P < 0.0001  ***
  3581. F (VR between groups)   =  6.61503   P = 0.0025  **
  3582.  
  3583. Newman-Keuls Multiple Comparisons
  3584.  
  3585. Treatment 4 vs Treatment 3     Q = 3.798024      P = 0.0140 *
  3586. Treatment 4 vs Treatment 2     Q = 4.583823      P = 0.0106 *
  3587. Treatment 4 vs Treatment 1     Q = 6.024452      P = 0.0020 **
  3588. Treatment 3 vs Treatment 2     Q = .7857996      P = 0.4155
  3589. Treatment 3 vs Treatment 1     Q = 2.226428      P = 0.2785
  3590. Treatment 2 vs Treatment 1     Q = 1.440628      P = 0.3201
  3591.  
  3592. Here we can see that there was a statistically highly significant difference
  3593. between mean clotting times across the groups.  The difference between
  3594. subjects is of no particular interest here.  The ¬multiple contrasts╪180310    ¬ show us
  3595. that the mean clotting time for group four is statistically significantly
  3596. different from the other three which are not significantly separated from
  3597. each other.
  3598.  
  3599. ¬<p values>╪29175     ¬
  3600. ¬<multiple contrasts>╪180310    ¬
  3601. ¬<analysis of variance>╪158578    ¬
  3602. ¬<reference list>╪310584    ¬
  3603.  
  3604. |Two Way with Replicates|
  3605.  
  3606. The simple two way randomised block design assumes that the row (subject) and
  3607. column (group) effects are additive.  This means that apart from experimental
  3608. error, the difference in effect between any two rows is the same for all columns
  3609. and vice versa.  If these effects are not additive then there exists a row
  3610. -column interaction which must be investigated by repeating the observations
  3611. for each block.  These data can then be analysed using this two way randomised
  3612. block design ANOVA for repeated observations.  Arcus will compensate for missing
  3613. observations in the replicates by estimating them as the mean of the replicates
  3614. present and by reducing the degrees of freedom, you should avoid this situation
  3615. if possible.  Enter each set of replicates in a separate worksheet column so
  3616. that there is a different Arcus variable for each cell of the two way table,
  3617. i.e. the third dimension coming out of the page, the replicates, is as deep as
  3618. the number of rows for these data in the worksheet.
  3619.  
  3620. EXAMPLE (from Armitage ref 4 p 221):
  3621.  
  3622. The following data represent clotting times (mins) from three subjects treated
  3623. in three different ways.  The plasma samples were allocated randomly to the
  3624. treatments and the analysis was repeated three times for each sample.
  3625.  
  3626.  Treatment          A         B        C
  3627.  Subject    1       9.8       9.9      11.3
  3628.                     10.1      9.5      10.7
  3629.                     9.8       10       10.7
  3630.  
  3631.  Subject    2       9.2       9.1      10.3
  3632.                     8.6       9.1      10.7
  3633.                     9.2       9.4      10.2
  3634.  
  3635.  Subject    3       8.4       8.6      9.8
  3636.                     7.9       8        10.1
  3637.                     8         8        10.1
  3638.  
  3639. To analyse these data in Arcus you must first prepare them in nine worksheet
  3640. columns:
  3641.  
  3642. s = subject
  3643. t = treatment
  3644.  
  3645.  s1t1    s1t2    s1t3    s2t1    s2t2    s2t3    s3t1    s3t2    s3t3
  3646.  9.8     9.9     11.3    9.2     9.1     10.3    8.4     8.6     9.8
  3647.  10.1    9.5     10.7    8.6     9.1     10.7    7.9     8       10.1
  3648.  9.8     10      10.7    9.2     9.4     10.2    8       8       10.1
  3649.  
  3650. Next select the two way with replicates option from the analysis of variance
  3651. menu of the analysis section.  Enter the number of groups as three and the
  3652. number of subjects as three.
  3653.  
  3654. For this example:
  3655.  
  3656. F (VR Subjects)    =  63.13918     P < 0.0001 ***
  3657. F (VR Groups)      =  80.32172     P < 0.0001 ***
  3658. F (VR Interaction) =  2.522677     P = 0.1082
  3659.  
  3660. Newman-Keuls Multiple Comparisons
  3661. Group 3 vs Group 2      Q = 26.22421      P = 0.0002  ***
  3662. Group 3 vs Group 1      Q = 27.50345      P = 0.0001  ***
  3663. Group 2 vs Group 1      Q = 1.279235      P = 0.3778
  3664.  
  3665. Here we see a statistically highly significant difference between mean clotting
  3666. times across the groups and more specifically, group 3 stands out from the rest.
  3667. If the F value for interaction had been significant then there would have been
  3668. little point in drawing conclusions about independent group and subject effects
  3669. from the other F values.
  3670.  
  3671. ¬<p values>╪29175     ¬
  3672. ¬<multiple contrasts>╪180310    ¬
  3673. ¬<analysis of variance>╪158578    ¬
  3674. ¬<reference list>╪310584    ¬
  3675.  
  3676. |Crossover|
  3677.  
  3678. If a group of subjects is exposed to two different treatments A and B then a
  3679. crossover trial would involve half of the subjects being exposed to A then B and
  3680. the other half to B then A.  A washout period is allowed between the two
  3681. exposures and the subjects are randomly allocated to one of the two orders of
  3682. exposure.  A simple crossover design ANOVA can be applied to these data.  The
  3683. two times when the groups are exposed to the treatments are known as period 1
  3684. and period 2.  This ANOVA tests for treatment effects, period effects and
  3685. treatment-period interaction.  For further information please refer to Armitage
  3686. & Berry (ref 4).
  3687.  
  3688. EXAMPLE (from Armitage ref 4 p224):
  3689.  
  3690. The following data represent the number of dry nights out of 14 in two groups
  3691. of bedwetters.  The first group were treated with drug X and then a placebo
  3692. and the second group were treated with the placebo then drug x.  An acceptable
  3693. washout period was allowed between these two treatments.
  3694.  
  3695. Group I:   Drug X   Placebo           Group II:   Placebo   Drug X
  3696.            8        5                             12        11
  3697.            14       10                            6         8
  3698.            8        0                             13        9
  3699.            9        7                             8         8
  3700.            11       6                             8         9
  3701.            3        5                             4         8
  3702.            6        0                             8         14
  3703.            0        0                             2         4
  3704.            13       12                            8         13
  3705.            10       2                             9         7
  3706.            7        5                             7         10
  3707.            13       13                            7         6
  3708.            8        10
  3709.            7        7
  3710.            9        0
  3711.            10       6
  3712.            2        2
  3713.  
  3714. To analyse these data in Arcus you must first prepare them in four worksheet
  3715. columns appropriately labelled.  Then select crossover from the analysis of
  3716. variance menu of the analysis section.  When asked for baseline levels just
  3717. press Esc for none.  Select a 95% confidence interval by pressing the enter
  3718. key when prompted by the confidence interval menu.
  3719.  
  3720. For this example:
  3721.  
  3722. Test for relative effectiveness of drug / placebo:
  3723. t  = 3.526533       P = 0.0007  ***
  3724.  
  3725. Test for treatment effect:
  3726. diff 1 - diff 2  = 4.073529     SE = 1.2372
  3727. effect magnitude = 2.036765     95% CI = .7679056 to 3.305624
  3728. t  = 3.292539                   DF = 27           P = 0.0014 **
  3729.  
  3730. Test for period effect:
  3731. t  = 1.271847       P = 0.1071
  3732.  
  3733. Test for treatment / period interaction:
  3734. t  = -1.299673      P = 0.1024
  3735.  
  3736. Here the absence of a statistically significant period effect or treatment
  3737. period interaction enables us to quote the statistically highly significant
  3738. effect of drug vs placebo.  With 95% confidence we can say that the true
  3739. population value for the magnitude of the treatment effect lies somewhere
  3740. between 0.77 and 3.31 extra dry nights each fortnight.
  3741.  
  3742. ¬<p values>╪29175     ¬
  3743. ¬<analysis of variance>╪158578    ¬
  3744. ¬<reference list>╪310584    ¬
  3745.  
  3746. |Kruskal-Wallis| test
  3747.  
  3748. This is a method for comparing k independent random samples and can be used as
  3749. a nonparametric alternative to the one way ANOVA.  In addition to independence
  3750. within the samples there must be mutual independence between the samples.  The
  3751. data must also have been measured using a scale which is at least ordinal.  If
  3752. the test is significant then you may conclude that at least one of the samples
  3753. tends to yield larger observations than at least one of the others.  In the
  3754. presence of tied ranks the test statistic is given in adjusted and unadjusted
  3755. forms, (opinion varies concerning the handling of ties).  Approximate
  3756. probability is evaluated from a chi-square distribution with k-1 degrees of
  3757. freedom.  For small samples you may wish to refer to tables of the Kruskal-
  3758. Wallis test statistic but the chi-square approximation is highly satisfactory
  3759. in most cases.  If this test achieves significance you are given the chance to
  3760. make multiple comparisons between the samples.  You may choose the level of
  3761. significance for these comparisons but this is usually α = 0.05 which is the
  3762. default on pressing the enter key.  All possible comparisons are made and the
  3763. probability of each presumed "non-difference" is indicated.  For further
  3764. information about this method please refer to Conover (ref 6).
  3765.  
  3766. EXAMPLE  (from Conover ref 6 p 231):
  3767.  
  3768. The following data represent corn yields per acre from four different fields
  3769. where different farming methods were used.
  3770.  
  3771.  Method 1       Method 2       Method 3       Method 4
  3772.  83             91             101            78
  3773.  91             90             100            82
  3774.  94             81             91             81
  3775.  89             83             93             77
  3776.  89             84             96             79
  3777.  96             83             95             81
  3778.  91             88             94             80
  3779.  92             91                            81
  3780.  90             89
  3781.                 84
  3782.  
  3783. To analyse these data in Arcus you must first prepare them in four worksheet
  3784. columns appropriately labelled.  Then select Kruskal-Wallis from the analysis
  3785. of variance menu of the analysis section.  Enter the number of groups as four.
  3786.  
  3787. For this example:
  3788.  
  3789. Adjusted for ties:  T = 25.62883  P < 0.0001  ***
  3790.  
  3791. Method 1 and Method 2    P = 0.0078  **
  3792. Method 1 and Method 3    P = 0.0044  **
  3793. Method 1 and Method 4    P < 0.0001  ***
  3794. Method 2 and Method 3    P < 0.0001  ***
  3795. Method 2 and Method 4    P = 0.0001  ***
  3796. Method 3 and Method 4    P < 0.0001  ***
  3797.  
  3798. From the overall T we see a statistically highly significant tendency for at
  3799. least one group to give higher values than at least one of the others.
  3800. Subsequent contrasts show a significant separation of all groups.
  3801.  
  3802. ¬<p values>╪29175     ¬
  3803. ¬<analysis of variance>╪158578    ¬
  3804. ¬<reference list>╪310584    ¬
  3805.  
  3806. |Friedman| Test
  3807.  
  3808. This method compares several related samples and can be used as a nonparametric
  3809. alternative to the two way ANOVA.  It is assumed that the results within one
  3810. block do not influence the results within other blocks.  If the test is
  3811. significant then at least one of the treatments tends to yield larger
  3812. observations than at least one of the other treatments.  The power of this
  3813. method is low with small samples but it is the best method for nonparametric two
  3814. way analysis of variance with sample sizes above five.  When the test is
  3815. significant Arcus allows you to make multiple comparisons between the individual
  3816. samples.  These comparisons are performed automatically for all possible
  3817. contrasts and you are informed of the statistical significance of each contrast.
  3818. Please note that the overall test statistic is T2 as defined by Inman and
  3819. Davenport (1980) and this is tested against the f distribution.  Older
  3820. literature advocates the use of T3 tested against the chi-square distribution
  3821. but this has been shown to be an inferior approach.  For further information
  3822. please refer to Conover (ref 6).
  3823.  
  3824. EXAMPLE (from Conover ref 6 301):
  3825.  
  3826. The following data represent the rank preferences of twelve home owners for
  3827. four different types of grass planted in their gardens for a trial period.
  3828. They considered defined criteria before ranking each grass between 1 (best)
  3829. and 4 (worst).
  3830.  
  3831.  Grass 1        Grass 2        Grass 3        Grass 4
  3832.  4              3              2              1
  3833.  4              2              3              1
  3834.  3              1.5            1.5            4
  3835.  3              1              2              4
  3836.  4              2              1              3
  3837.  2              2              2              4
  3838.  1              3              2              4
  3839.  2              4              1              3
  3840.  3.5            1              2              3.5
  3841.  4              1              3              2
  3842.  4              2              3              1
  3843.  3.5            1              2              3.5
  3844.  
  3845.  
  3846. To analyse these data in Arcus you must first prepare them in four worksheet
  3847. columns appropriately labelled.  Then select Friedman from the analysis of
  3848. variance menu in the analysis section.  Enter the number of groups as four.
  3849.  
  3850. For this example:
  3851.  
  3852. T2 =  3.192198  P = 0.0362 *
  3853.  
  3854. Grass 1 - Grass 2    P = 0.0149 *
  3855. Grass 1 - Grass 3    P = 0.0226 *
  3856. Grass 1 - Grass 4    P = 0.4834
  3857. Grass 2 - Grass 3    P = 0.8604
  3858. Grass 2 - Grass 4    P = 0.0717
  3859. Grass 3 - Grass 4    P = 0.1017
  3860.  
  3861. From the overall test statistic we can conclude that there is a statistically
  3862. significant tendency for at least one group to yield higher values than at
  3863. least one of the other groups.  Considering the raw data and the contrast
  3864. results we see that grasses 2 and 3 are significantly preferred above grass 1
  3865. but that there is little to choose between 2 and 3.
  3866.  
  3867. ¬<p values>╪29175     ¬
  3868. ¬<analysis of variance>╪158578    ¬
  3869. ¬<reference list>╪310584    ¬
  3870.  
  3871. |Multiple Contrasts| and ANOVA
  3872.  
  3873. The multiple contrast or simultaneous inference situation arises when you want
  3874. to make pairwise comparisons between many groups after an analysis of variance.
  3875.  
  3876. When multiple comparisons are made you are in danger of type I error using t
  3877. tests alone, therefore, more conservative approaches are required.  Arcus offers
  3878. you methods due to Scheffé, Newman-Keuls and gives Bonferroni's limitation with
  3879. t tests (ref 4, 13, 22).
  3880.  
  3881. With the Newman-Keuls method, means are first ordered in sequence then each
  3882. possible discrete comparison is made.  The probability associated with the
  3883. resultant q values are then derived from the Studentized range.
  3884.  
  3885. For Scheffé's test all possible linear contrasts are also made automatically.  Please note
  3886. Scheffé's is the most conservative method of all.
  3887.  
  3888. In the presence of a control group some authors recommend Dunnett's method and
  3889. there are more powerful contrast methods for controls such as that due to the
  3890. late D. A. Williams.  These are not presently offered by Arcus but you CAN use
  3891. one of the methods which are in the current version of Arcus, they will just be
  3892. a little more conservative.
  3893.  
  3894. I recommend the Newman-Keuls method for general use.  It is the most soundly
  3895. justifiable approach for most multiple contrast situations.  You will not find
  3896. it in many other stats packages because it is difficult to program and no other
  3897. reason (ref 4, 22).
  3898.  
  3899. This is a controversial area in statistics and you would be wise to seek the
  3900. advice of a statistician before you design your study.  In general you should
  3901. design experiments so that you can avoid having to "dredge" groups of data for
  3902. differences, decide which contrasts you are interested in at the outset.  If you
  3903. can identify contrasts at the design stage of an experiment then subsequent use
  3904. of t tests is justified provided the basic assumptions of the t test are met.
  3905.  
  3906. ¬<analysis of variance>╪158578    ¬
  3907.  
  3908. |Survival Analysis|
  3909.  
  3910. ¬<Kaplan-Meier>╪182964    ¬
  3911. ¬<Simple life table>╪194318    ¬
  3912. ¬<Log-rank and Wilcoxon>╪199215    ¬
  3913. ¬<Wei-Lachin>╪206225    ¬
  3914.  
  3915. This section offers facilities for the description and comparison of survival
  3916. experience in different groups.  Unlike other Arcus functions the survival
  3917. analysis section does not use separate variables for different groups.  The
  3918. groups are indicated by a group variable which contains group identifiers, i.e.
  3919. for 2 groups you would have a column of 1's and 2's in the worksheet.  Each of
  3920. the data in this column (variable) give a group identity to their rows with
  3921. respect to time, death and censorship data in adjacent columns.
  3922.  
  3923. |Kaplan-Meier|
  3924.  
  3925. This provides the Kaplan-Meier product limit estimates of the survivor (S) and
  3926. cumulative hazard (H) functions.  Results are displayed for one group at a time
  3927. and you have the option to save these results as worksheet variables.  If you
  3928. choose to save results as worksheet variables then the results are extended to
  3929. include confidence intervals for the survivor and cumulative hazard functions.
  3930. The variance estimates are approximations based on Greenwood's formula, these
  3931. may differ slightly from results obtained using other packages.  The confidence
  3932. interval for the survivor function is not a simple application of Greenwood's
  3933. variance approximation because this would give impossible results (< 0 or > 1)
  3934. at extremes of S.  The confidence interval for S uses an asymptotic maximum
  3935. likelihood solution by the transformation recommended by Kalbfleisch and
  3936. Prentice (ref 25).  You are also given the option to plot these functions.
  3937. Four different plots are given and certain distributions are indicated if
  3938. these plots display linearity (ref 24, 25).  The plots and their associated
  3939. distributions are:
  3940.  
  3941.  PLOT               DISTRIBUTION INDICATED IF LINEAR
  3942.  
  3943.  H vs Time          Exponential, through the origin with slope lambda
  3944.  
  3945.  ln(H) vs ln(Time)  Weibull, intercept beta and slope ln(lambda)
  3946.  
  3947.  Z(S) vs ln(Time)   Log-normal
  3948.  
  3949.  H/Time vs Time     Linear hazard rate
  3950.  
  3951.  
  3952. DEFINITIONS:
  3953.  
  3954. Let survival time = time to event/failure (here = death)
  3955.     S = survivor function
  3956.     H = hazard function
  3957.  
  3958. S = │estimated probability of surviving day t│ x │estimated % surviving up to│%
  3959.     │for those alive at start of day t.      │   │day t.                     │
  3960.  
  3961. H = risk of death at time t
  3962.  
  3963. BEYOND ARCUS:
  3964.  
  3965. Arcus offers you the basic construction of survivor and hazard estimates with
  3966. their confidence intervals.  If you want to go further and fit models to these
  3967. functions then you require specialist software.  At this point most researchers
  3968. should seek statistical advice.  You should aim to fit these models using a
  3969. maximum likelihood procedure.  Beware, you might need to construct a novel
  3970. non-linear model for your data.  The commonest model is exponential but Weibull,
  3971. log-normal, log-logistic and Gamma often appear.
  3972.  
  3973. If the hazard function is constant over time then a plot of log hazard function
  3974. vs time will be linear with slope lambda.  If this is true then you have the
  3975. useful relationship Probability(survival > t) = exp(-lambda * t).  This eases
  3976. the calculation of relative risk from the ratio of hazard functions at time t
  3977. on two survival curves.  When the hazard function depends on time then you can
  3978. usually calculate relative risk after fitting Cox's proportional hazards model.
  3979. This model assumes that for each group the hazard functions are proportional
  3980. at each time, it does not assume any particular distribution function for the
  3981. hazard function.  Proportional hazards modelling can be very useful, however,
  3982. most researchers should seek statistical guidance with this.
  3983.  
  3984. SAS includes some good routines for modelling survival data but you might
  3985. require Genstat, GLIM or MLP for more exploratory work.
  3986.  
  3987.  
  3988. EXAMPLE  (from Kalbfleisch & Prentice ref 25, p 14):
  3989.  
  3990. Death from vaginal cancer after exposure to the carcinogen DMPA was measured
  3991. in two groups of rats.  Group 1 had a different DMPA pre-treatment régime to
  3992. group 2.  The time from pre-treatment to death is recorded.  If a rat was still
  3993. living at the end of the experiment or it had died from a different cause then
  3994. that time is considered "censored".  A censored observation is given the value
  3995. 0 in the death/censorship variable to indicate a "non-event".
  3996.  
  3997. Group 1:   143, 164, 188, 188, 190, 192, 206, 209, 213, 216, 220, 227, 230,
  3998.            234, 246, 265, 304, 216*, 244*
  3999.  
  4000. Group 2:   142, 156, 163, 198, 205, 232, 232, 233, 233, 233, 233, 239, 240,
  4001.            261, 280, 280, 296, 296, 232, 204*, 344*
  4002.  
  4003.            * = censored data
  4004.  
  4005. To analyse these data in Arcus you must first prepare them in three worksheet
  4006. columns appropriately labelled:
  4007.  
  4008.  Group          Time           Death/Censorship
  4009.  2              142            1
  4010.  1              143            1
  4011.  2              156            1
  4012.  2              163            1
  4013.  1              164            1
  4014.  1              188            1
  4015.  1              188            1
  4016.  1              190            1
  4017.  1              192            1
  4018.  2              198            1
  4019.  2              204            0
  4020.  2              205            1
  4021.  1              206            1
  4022.  1              209            1
  4023.  1              213            1
  4024.  1              216            0
  4025.  1              216            1
  4026.  1              220            1
  4027.  1              227            1
  4028.  1              230            1
  4029.  2              232            1
  4030.  2              232            1
  4031.  2              232            1
  4032.  2              233            1
  4033.  2              233            1
  4034.  2              233            1
  4035.  2              233            1
  4036.  1              234            1
  4037.  2              239            1
  4038.  2              240            1
  4039.  1              244            0
  4040.  1              246            1
  4041.  2              261            1
  4042.  1              265            1
  4043.  2              280            1
  4044.  2              280            1
  4045.  2              296            1
  4046.  2              296            1
  4047.  1              304            1
  4048.  2              323            1
  4049.  2              344            0
  4050.  
  4051. Then select the Kaplan-Meier function from the survival analysis menu of the
  4052. analysis section.  Select Y when you are asked whether or not you want to save
  4053. various statistcs to the worksheet.  Select a 95% confidence interval by
  4054. pressing enter when prompted with the confidence interval menu.  Select Y when
  4055. you are prompted about displaying plots.
  4056.  
  4057. For Group 1:
  4058.  
  4059. Here are the product limit estimates of survival and hazard to the times
  4060. observed in the experiment:
  4061.  
  4062.  Time     At Risk   Dead    Censored    S         Var S     H         Var H
  4063.  
  4064.  143      19        1       0           0.94737   0.00262   0.05407   0.00292
  4065.  164      18        1       0           0.89474   0.00496   0.11123   0.00619
  4066.  188      17        2       0           0.78947   0.00875   0.23639   0.01404
  4067.  190      15        1       0           0.73684   0.01021   0.30538   0.0188
  4068.  192      14        1       0           0.68421   0.01137   0.37949   0.02429
  4069.  206      13        1       0           0.63158   0.01225   0.45953   0.0307
  4070.  209      12        1       0           0.57895   0.01283   0.54654   0.03828
  4071.  213      11        1       0           0.52632   0.01312   0.64185   0.04737
  4072.  216      10        1       1           0.47368   0.01312   0.74721   0.05848
  4073.  220      8         1       0           0.41447   0.01311   0.88075   0.07634
  4074.  227      7         1       0           0.35526   0.01264   1.0349    0.10015
  4075.  230      6         1       0           0.29605   0.0117    1.21722   0.13348
  4076.  234      5         1       0           0.23684   0.01029   1.44036   0.18348
  4077.  244      4         0       1           0.23684   0.01029   1.44036   0.18348
  4078.  246      3         1       0           0.15789   0.00873   1.84583   0.35015
  4079.  265      2         1       0           0.07895   0.0053    2.53897   0.85015
  4080.  304      1         1       0           0         0         ∞         0
  4081.  
  4082. And with 95% confidence interval for S...
  4083.  
  4084.  Time     At Risk        Survivor (S)   95% LCI S      95% UCI S
  4085.  143      19             .9473684       .6811868       .9924147
  4086.  164      18             .8947369       .6407944       .9725854
  4087.  188      17             .7894737       .5319126       .9152861
  4088.  190      15             .7368422       .4789329       .8810194
  4089.  192      14             .6842106       .4279407       .8439419
  4090.  206      13             .631579        .3789929       .804409
  4091.  209      12             .5789474       .3320811       .76264
  4092.  213      11             .5263159       .2872013       .7187639
  4093.  216      10             .4736843       .2443767       .6728407
  4094.  220      8              .4144737       .1961606       .6211132
  4095.  227      7              .3552632       .1519129       .5664639
  4096.  230      6              .2960527       .1116839       .5087005
  4097.  234      5              .2368421       7.577927E-02   .4474698
  4098.  244      4              .2368421       7.577927E-02   .4474698
  4099.  246      3              .1578947       3.143191E-02   .3735425
  4100.  265      2              7.894737E-02   5.665417E-03   .2876329
  4101.  304      1              0              0              0
  4102.  
  4103. Below is the classical "survival plot" showing how survival declines with time.
  4104. If you want a high resolution plot of this then feed the data saved to the
  4105. worksheet through the survival plot function of the pictorial statistics menu.
  4106.  
  4107.  Survivor
  4108.      1.00+
  4109.          │B
  4110.          │A   B
  4111.          │     BA
  4112.          │              B .
  4113.      0.75+            A   B
  4114.          │            A
  4115.          │             A
  4116.          │                A      B
  4117.          │                 A
  4118.      0.50+                  A
  4119.          │                   A
  4120.          │                    A  B
  4121.          │                     A  B
  4122.          │                         B
  4123.      0.25+                      A       B
  4124.          │                       A  .
  4125.          │                          A        B
  4126.          │
  4127.          │                               A       B
  4128.      0.00+                                         A   B     .
  4129.          /+────────-+────────-+────────-+────────-+────────-+────────-+
  4130.         140       180       220       260       300       340       380
  4131.                                                                   Times
  4132.  
  4133.  
  4134. The approximate linearity of the log hazard vs log time plot below indicates a
  4135. Weibull distribution of survival.
  4136.  
  4137. Log Hazard
  4138.      1.70+
  4139.          │
  4140.          │
  4141.          │                                                       B   .
  4142.          │                                         A       B
  4143.      0.45+                                     A       B
  4144.          │                                 A  .   B
  4145.          │                               AA  B
  4146.          │                            AA   B
  4147.          │                           A
  4148.     -0.80+                         AA      B
  4149.          │                    A
  4150.          │                   A
  4151.          │                   A    B
  4152.          │                      B .
  4153.     -2.05+         B
  4154.          │         A
  4155.          │      B
  4156.          │
  4157.          │A
  4158.     -3.30+B
  4159.          /+────────-+────────-+────────-+────────-+────────-+────────-+
  4160.        4.95      5.10      5.25      5.40      5.55      5.70      5.85
  4161.                                                               Log Times
  4162.  
  4163. At this point you might be wanting to run a formal hypothesis test to see if
  4164. there is any statistical evidence for two or more survival curves being
  4165. different.  This can be achieved using sensitive parametric methods if you have
  4166. fitted a particular distribution curve to your data.  More often you would use
  4167. the ¬Log-rank and Wilcoxon╪199215    ¬ tests which do not assume any particular
  4168. distribution of the survivor function.
  4169.  
  4170. ¬<confidence intervals>╪31897     ¬
  4171. ¬<reference list>╪310584    ¬
  4172.  
  4173. |Simple Life Table|
  4174.  
  4175. This function provides a simple life table which displays the survival
  4176. experience of a group of individuals or cohort, this is much like the table
  4177. originally proposed by Berkson and Gage (ref 4, 5, 24, 25).  The confidence
  4178. interval for lx is not a simple application of the estimated variance.  Instead
  4179. it uses a maximum likelihood solution from an asymptotic distribution by
  4180. the transformation of lx suggested by Kalbfleisch and Prentice (ref 25).  This
  4181. treatment of lx avoids impossible values (i.e. >1 or <0).
  4182.  
  4183. DEFINITIONS:
  4184.  
  4185. INTERVAL   For a full life table this is ages in single years.
  4186.            For an abridged life table this is ages in groups.
  4187.            For a Berkson and Gage survival table this is the survival times
  4188.            in intervals.
  4189.  
  4190. DEATHS     Number of individuals who die in the interval.
  4191.  
  4192. W'DRAWN    Number of individuals withdrawn or lost to follow up in the
  4193.            interval.
  4194.  
  4195. AT RISK    Number of individuals alive at the start of the interval.
  4196.  
  4197. N'x        Adjusted number at risk (half of withdrawals of current interval
  4198.            subtracted).
  4199.  
  4200. q          Probability that an individual who survived the last interval will
  4201.            die in the current interval.
  4202.  
  4203. p          Probability that an individual who survived the last interval will
  4204.            survive the current interval.
  4205.  
  4206. lx         Probability of an individual surviving beyond the current interval.
  4207.            Proportion of survivors after the current interval.
  4208.            Life table survival rate.
  4209.  
  4210. Var(lx)    Estimated variance of lx.
  4211.  
  4212. X% LCI lx  Lower x% confidence interval for lx.
  4213.  
  4214. X% UCI lx  Upper x% confidence interval for lx.
  4215.  
  4216. EXAMPLE (from Armitage ref. 5 p 425):
  4217.  
  4218. The following data represent the survival of a 374 patients who had one type of
  4219. surgery for a particular malignancy:
  4220.  
  4221.  Years since operation   Died in this interval   Lost to follow up
  4222.  1                       90                      0
  4223.  2                       76                      0
  4224.  3                       51                      0
  4225.  4                       25                      12
  4226.  5                       20                      5
  4227.  6                       7                       9
  4228.  7                       4                       9
  4229.  8                       1                       3
  4230.  9                       3                       5
  4231.  10                      2                       5
  4232.  
  4233. To analyse these data in Arcus you must first prepare them in three worksheet
  4234. columns appropriately labelled.  Then select the simple life table from the
  4235. survival analysis menu of the analysis section.  Enter the number at the start
  4236. as 374.  Select a 95% confidence interval by pressing enter when prompted by the
  4237. confidence interval menu.
  4238.  
  4239. For this example:
  4240.  
  4241. Interval   Deaths    W'drawn   At Risk   N'x          q            p
  4242.  
  4243. 0-         90        0         374       374          0.2406417    0.7593583
  4244. 1-         76        0         284       284          0.2676056    0.7323943
  4245. 2-         51        0         208       208          0.2451923    0.7548077
  4246. 3-         25        12        157       151          0.1655629    0.8344371
  4247. 4-         20        5         120       117.5        0.1702128    0.8297873
  4248. 5-         7         9         95        90.5         0.07734807   0.9226519
  4249. 6-         4         9         79        74.5         0.05369128   0.9463087
  4250. 7-         1         3         66        64.5         0.01550388   0.9844961
  4251. 8-         3         5         62        59.5         0.05042017   0.9495798
  4252. 9-         2         5         54        51.5         0.03883495   0.9611651
  4253. 10-        -         -         47        -            -            -
  4254.  
  4255.  
  4256. Interval   p            lx           Var(lx)      95% LCI lx   95% UCI lx
  4257.  
  4258. 0-         0.7593583    1            -            -            -
  4259. 1-         0.7323943    0.7593583    0.00048859   0.7127129    0.7995125
  4260. 2-         0.7548077    0.5561497    0.00066002   0.5042839    0.6048234
  4261. 3-         0.8344371    0.4197861    0.00065125   0.3694556    0.4692234
  4262. 4-         0.8297873    0.3502851    0.00061468   0.3020018    0.3988916
  4263. 5-         0.9226519    0.2906621    0.00057073   0.2447156    0.33805
  4264. 6-         0.9463087    0.26818      0.00055247   0.2232208    0.3150406
  4265. 7-         0.9844961    0.253781     0.00054379   0.2093514    0.3004384
  4266. 8-         0.9495798    0.2498464    0.0005423    0.2055291    0.2964883
  4267. 9-         0.9611651    0.2372491    0.00053922   0.1932333    0.2839237
  4268. 10-        -            0.2280356    0.00053895   0.1932333    0.2839237
  4269.  
  4270. Thus we can conclude with 95% confidence that the true population survival rate
  4271. 5 years after this operation lies somewhere between 24.5% and 33.8% for
  4272. patients who present with this malignancy.
  4273.  
  4274. ¬<confidence intervals>╪31897     ¬
  4275. ¬<reference list>╪310584    ¬
  4276.  
  4277. |Log-Rank and Wilcoxon|
  4278.  
  4279. These are two methods for comparing two or more survival curves.  These methods
  4280. do not make any assumptions about the distributions of the survival estimates
  4281. which comprise the curves.  The null hypothesis that the risk of death is the
  4282. same in all groups is tested.  Peto's log-rank test is generally the most
  4283. appropriate method but the modified Wilcoxon test is more sensitive when the
  4284. ratio of hazards is higher at early survival times than at late ones.  An
  4285. optional variable, strata, allows you to sub-classify the groups specified
  4286. in the group identifier variable and to test the significance of this
  4287. sub-classification (ref 4, 24, 25).
  4288.  
  4289. EXAMPLE (from Armitage ref 4 p 431):  The following data represent the survival
  4290. in days since entry to the trial of patients with diffuse histiocytic lymphoma.
  4291. Two different groups of patients, those with stage III and those with stage IV
  4292. disease, are compared.
  4293.  
  4294. Stage 3:    6, 19, 32, 42, 42, 43*, 94, 126*, 169*, 207, 211*, 227*, 253, 255*,
  4295.             270*, 310*, 316*, 335*, 346*
  4296.  
  4297. Stage 4:    4, 6, 10, 11, 11, 11, 13, 17, 20, 20, 21, 22, 24, 24, 29, 30, 30,
  4298.             31, 33, 34, 35, 39, 40, 41*, 43*, 45, 46, 50, 56, 61*, 61*, 63, 68,
  4299.             82, 85, 88, 89, 90, 93, 104, 110, 134, 137, 160*, 169, 171, 173,
  4300.             175, 184, 201, 222, 235*, 247*, 260*, 284*, 290*, 291*, 302*, 304*,
  4301.             341*, 345*
  4302.  
  4303.  * = censored data (patient still alive or died from an unrelated cause)
  4304.  
  4305. To analyse these data in Arcus you must first prepare them in three worksheet
  4306. columns as shown below:
  4307.  
  4308.  group          time           censor
  4309.  1              6              1
  4310.  1              19             1
  4311.  1              32             1
  4312.  1              42             1
  4313.  1              42             1
  4314.  1              43             0
  4315.  1              94             1
  4316.  1              126            0
  4317.  1              169            0
  4318.  1              207            1
  4319.  1              211            0
  4320.  1              227            0
  4321.  1              253            1
  4322.  1              255            0
  4323.  1              270            0
  4324.  1              310            0
  4325.  1              316            0
  4326.  1              335            0
  4327.  1              346            0
  4328.  2              4              1
  4329.  2              6              1
  4330.  2              10             1
  4331.  2              11             1
  4332.  2              11             1
  4333.  2              11             1
  4334.  2              13             1
  4335.  2              17             1
  4336.  2              20             1
  4337.  2              20             1
  4338.  2              21             1
  4339.  2              22             1
  4340.  2              24             1
  4341.  2              24             1
  4342.  2              29             1
  4343.  2              30             1
  4344.  2              30             1
  4345.  2              31             1
  4346.  2              33             1
  4347.  2              34             1
  4348.  2              35             1
  4349.  2              39             1
  4350.  2              40             1
  4351.  2              41             0
  4352.  2              43             0
  4353.  2              45             1
  4354.  2              46             1
  4355.  2              50             1
  4356.  2              56             1
  4357.  2              61             0
  4358.  2              61             0
  4359.  2              63             1
  4360.  2              68             1
  4361.  2              82             1
  4362.  2              85             1
  4363.  2              88             1
  4364.  2              89             1
  4365.  2              90             1
  4366.  2              93             1
  4367.  2              104            1
  4368.  2              110            1
  4369.  2              134            1
  4370.  2              137            1
  4371.  2              160            0
  4372.  2              169            1
  4373.  2              171            1
  4374.  2              173            1
  4375.  2              175            1
  4376.  2              184            1
  4377.  2              201            1
  4378.  2              222            1
  4379.  2              235            0
  4380.  2              247            0
  4381.  2              260            0
  4382.  2              284            0
  4383.  2              290            0
  4384.  2              291            0
  4385.  2              302            0
  4386.  2              304            0
  4387.  2              341            0
  4388.  2              345            0
  4389.  
  4390. Next select the Log-rank and Wilcoxon function from the survival analysis
  4391. menu of the analysis section.
  4392.  
  4393. For this example:
  4394.  
  4395. relative death rate for stage 3 = .4794143
  4396. relative death rate for stage 4 = 1.232816
  4397.  
  4398. Log-rank test
  4399. Chi-square for equivalence of death rates = 6.70971  P = 0.0096 **
  4400.  
  4401. Generalised Wilcoxon test
  4402. Chi-square for equivalence of death rates = 3.936735 P = 0.0472 *
  4403.  
  4404. You can see that both tests have demonstrated a statistically significant
  4405. difference in survival experience between stage 3 and stage 4 patients in
  4406. this study.
  4407.  
  4408.  
  4409. Stratified example: (from Peto et al. ref 40)
  4410.  
  4411. Group Identifier   Trial Times     Censorship         (Strata, optional)
  4412. 1                  8               1 (event = death)  1 (renal impairment)
  4413. 1                  8               1                  2 (no renal impairment)
  4414. 2                  13              1                  1
  4415. 2                  18              1                  1
  4416. 2                  23              1                  1
  4417. 1                  52              1                  1
  4418. 1                  63              1                  1
  4419. 1                  63              1                  1
  4420. 2                  70              1                  2
  4421. 2                  70              1                  2
  4422. 2                  180             1                  2
  4423. 2                  195             1                  2
  4424. 2                  210             1                  2
  4425. 1                  220             1                  2
  4426. 1                  365             0 (lost to f.u.)   2
  4427. 2                  632             1                  2
  4428. 2                  700             1                  2
  4429. 1                  852             0 (surviving)      2
  4430. 2                  1296            1                  2
  4431. 1                  1296            0                  2
  4432. 1                  1328            0                  2
  4433. 1                  1460            0                  2
  4434. 1                  1976            0                  2
  4435. 2                  1990            0                  2
  4436. 2                  2240            0                  2
  4437.  
  4438. The table above shows you how to prepare data for a stratified log-rank test
  4439. in Arcus.  This example is worked through in the second of two classic papers
  4440. by Richard Peto and colleagues (ref 39, 40).  If you want to understand survival
  4441. analysis then I strongly advise you to read these two papers.  Please note that
  4442. Arcus uses the more exact variance formulae mentioned in the statistical notes
  4443. section at the end of ref 40.
  4444.  
  4445. ¬<p values>╪29175     ¬
  4446. ¬<reference list>╪310584    ¬
  4447.  
  4448. |Wei-Lachin|
  4449.  
  4450. This provides a two sample distribution free analysis for the comparison of two
  4451. multivariate distributions of survival / time-to-event data which may be
  4452. incomplete / censored.  The method uses the random censorship model to apply
  4453. generalisations of the log-rank test and the Gehan generalised Wilcoxon test.
  4454. (ref A21, 26).  Arcus asks you for a group identifier variable which should be
  4455. a vector of 1's and 2's representing the two groups.  You then identify n pairs
  4456. of time-to-event and censorship variables for the n repeat times which you have
  4457. specified.  Censored data are coded as 0 and 1 represents uncensored data in
  4458. the censorship variable.  Repeat times may represent separate factors or the
  4459. observation of the same factor repeated on n occasions.  For example, time to
  4460. develop symptoms could be analysed for n different symptoms in a group of
  4461. patients treated with drug x and compared with a group of patients not treated
  4462. with drug x.   For further details please refer to the excellent paper by
  4463. Robert Makuch et. al. from which this Arcus function was developed (Ref A21).
  4464.  
  4465. EXAMPLE (from Makuch ref A21):  The following data represent the times in days
  4466. it took in vitro cultures of lymphocytes to reach a level of p24 antigen
  4467. expression.  The cultures where taken from patients infected with HIV-1 who had
  4468. advanced AIDS or AIDS related complex.  The idea was that patients whose
  4469. cultures took a short time to express p24 antigen had a greater load of HIV-1.
  4470. The two groups represented patients on two different treatments.  The culture
  4471. was run for 30 days and specimens which remained negative or which became
  4472. contaminated were called censored (=0).  The tests were run over four 30 day
  4473. periods:
  4474.  
  4475.  Treatment   Time 1  Cens 1   Time 2  Cens 2   Time 3  Cens 3   Time 4  Cens 4
  4476.  Group
  4477.  1           8       1        0       0        25      0        21      1
  4478.  1           6       1        4       1        5       1        5       1
  4479.  1           6       1        5       1        28      0        18      1
  4480.  1           14      0        35      0        23      1        19      0
  4481.  1           7       1        0       0        13      1        0       0
  4482.  1           5       1        4       1        27      1        8       1
  4483.  1           5       1        21      0        6       1        14      1
  4484.  1           6       1        10      1        14      1        18      1
  4485.  1           7       1        4       1        15      1        8       1
  4486.  1           6       1        5       1        5       1        5       1
  4487.  1           4       1        5       1        6       1        3       1
  4488.  1           5       1        4       1        7       1        5       1
  4489.  1           21      0        5       1        0       0        6       1
  4490.  1           13      1        27      0        21      0        8       1
  4491.  1           4       1        27      0        7       1        6       1
  4492.  1           6       1        3       1        7       1        8       1
  4493.  1           6       1        0       0        5       1        5       1
  4494.  1           6       1        0       0        4       1        6       1
  4495.  1           7       1        9       1        6       1        7       1
  4496.  1           8       1        15      1        8       1        0       0
  4497.  1           18      0        27      0        18      0        9       1
  4498.  1           16      1        14      1        14      1        6       1
  4499.  1           15      1        9       1        12      1        12      1
  4500.  2           4       1        5       1        4       1        3       1
  4501.  2           8       1        22      1        25      0        0       0
  4502.  2           6       1        6       1        8       1        5       1
  4503.  2           7       1        10      1        10      1        18      1
  4504.  2           5       1        14      1        17      0        6       1
  4505.  2           3       1        5       1        8       1        6       1
  4506.  2           6       1        11      1        6       1        13      1
  4507.  2           6       1        0       0        15      1        7       1
  4508.  2           6       1        12      1        19      1        8       1
  4509.  2           6       1        25      0        0       0        22      0
  4510.  2           4       1        7       1        5       1        7       1
  4511.  2           5       1        7       1        4       1        6       1
  4512.  2           3       1        9       1        7       1        6       1
  4513.  2           9       1        17      1        0       0        21      0
  4514.  2           6       1        4       1        8       1        14      1
  4515.  2           5       1        5       1        7       1        16      0
  4516.  2           12      1        18      0        14      1        0       0
  4517.  2           9       1        11      1        15      1        18      0
  4518.  2           6       1        5       1        9       1        0       0
  4519.  2           18      0        8       1        10      1        13      1
  4520.  2           4       1        4       1        5       0        10      1
  4521.  2           3       1        10      1        0       1        21      0
  4522.  2           8       1        7       1        10      1        12      1
  4523.  2           3       1        6       1        7       1        9       1
  4524.  
  4525. To analyse these data in Arcus you must first prepare them in 9 worksheet
  4526. columns as shown above.  Then select the Wei-Lachin function from the survival
  4527. analysis menu of the analysis section.  Enter number of repeat times as 4.
  4528.  
  4529. For this example:
  4530.  
  4531. Univariate generalised Wilcoxon tests:
  4532.  
  4533. repeat time = 1
  4534. chi-square = 3.588261      P = 0.0582
  4535. repeat time = 2
  4536. chi-square = .1071885      P = 0.7434
  4537. repeat time = 3
  4538. chi-square = .2164523      P = 0.6418
  4539. repeat time = 4
  4540. chi-square = 1.996144      P = 0.1577
  4541.  
  4542. Multivariate generalised Wilcoxon test:
  4543.  
  4544.  chi squared omnibus statistic = 9.242916      P = 0.0553
  4545. stochastic ordering chi-square = 9.598206E-02  P = 0.7567
  4546.  
  4547.  
  4548. Univariate log-rank tests:
  4549.  
  4550. repeat time = 1
  4551. chi-square = 3.344057      P = 0.0674
  4552. repeat time = 2
  4553. chi-square = .5345362      P = 0.4647
  4554. repeat time = 3
  4555. chi-square = .9179572      P = 0.3380
  4556. repeat time = 4
  4557. chi-square = 2.675657      P = 0.1019
  4558.  
  4559. Multivariate log-rank test:
  4560.  
  4561.  chi squared omnibus statistic = 9.52966       P = 0.0491 *
  4562. stochastic ordering chi-square = .4743826      P = 0.4910
  4563.  
  4564. Here the multivariate log-rank test has revealed a statistically significant
  4565. difference between the treatment groups which was not revealed by any of the
  4566. individual univariate tests.  For more detailed discussion of each result
  4567. parameter please see Wei and Lachin's original paper (ref 26).
  4568.  
  4569. ¬<p values>╪29175     ¬
  4570. ¬<reference list>╪310584    ¬
  4571.  
  4572. |Instant Functions| (Non-Worksheet oriented analysis)
  4573.  
  4574. ¬<Distributions>╪213522    ¬
  4575. ¬<Chi-square tests>╪222593    ¬
  4576. ¬<Exact tests>╪242962    ¬
  4577. ¬<Proportions>╪262904    ¬
  4578. ¬<Sample Size>╪256010    ¬
  4579. ¬<Randomisation>╪252007    ¬
  4580. ¬<Miscellaneous>╪269298    ¬
  4581.  
  4582. These functions are referred to as instant because they do not require columns
  4583. of numbers to have been prepared in advance using the Arcus worksheet.  You are
  4584. prompted for the relevant data within the function.
  4585.  
  4586. Statistical Probability |Distributions|
  4587.  
  4588. This section deals with the commonly used statistical probability distributions.
  4589. Robust, reliable algorithms have been employed to provide a high level of
  4590. accuracy, thus most tail areas are given to six decimal places.  For practical
  4591. purposes the p values given with hypothesis tests throughout Arcus are displayed
  4592. to four decimal places.
  4593.  
  4594. ¬<Normal>╪218237    ¬
  4595. ¬<Chi-square>╪218665    ¬
  4596. ¬<Student's t>╪219206    ¬
  4597. ¬<F (variance ratio)>╪219707    ¬
  4598. ¬<Studentized range Q>╪220173    ¬
  4599. ¬<Spearman's rho>╪221715    ¬
  4600. ¬<Kendall's tau>╪222143    ¬
  4601. ¬<binomial>╪220751    ¬
  4602. ¬<Poisson>╪221217    ¬
  4603.  
  4604.  
  4605. PROBILITY DISTRIBUTIONS
  4606. -----------------------
  4607.  
  4608. Probability exists as a concept to help us predict the chance of something
  4609. happening (an outcome) based on observations of this outcome in the past.
  4610. In mathematical language, this outcome is described in terms of a random
  4611. variable.  The random variable can take on different values which represent
  4612. different outcomes, eg blood pressure.  This sort of random variable can be
  4613. thought of in infinitely small units of measurement where the steps between
  4614. the units are so small that they become continuous, this is a continuous
  4615. random variable.  The other kind of random variable is called discrete.
  4616. Discrete random variables take on discrete outcomes such as the number of
  4617. times an asthmatic patient has been admitted to hospital with an acute
  4618. exacerbation.  If you consider an outcome measured in many different
  4619. individuals in a population then you are starting to build up a model of this
  4620. outcome within that population.  If you then plot all of the values of this
  4621. outcome on a histogram you might find a particular shape emerging every time
  4622. you take a large random sample from this population.  With a continuous random
  4623. variable you can draw a curve around the histogram because it is possible to
  4624. have values in between any that are measured.  With a discrete variable,
  4625. however, there may only be a few possible outcomes so your histogram will have
  4626. wide bars with definite steps between them.  This is like the difference
  4627. between a digital signal (steps) and an analogue signal (curves).
  4628.  
  4629. Now comes the all important linking concept, probability distribution.  We have
  4630. discussed how the different values of an outcome can be plotted on a histogram
  4631. with some values occurring more frequently than others.  Thus the commonly
  4632. occurring values have a higher probability of being observed when you take a
  4633. random sample of that population.
  4634.  
  4635. def  A probability distribution of a random variable is a table, graph or
  4636.      mathematical expression giving the probabilities with which the random
  4637.      variable takes different values.
  4638.  
  4639. Putting numbers to this concept involves more thought about populations.
  4640. Think of a graph of probability (p) plotted against the value of outcome (x).
  4641. A probability distribution would include all possible values for x.  The sum
  4642. of p for all possible values of x is defined as 1.  For discrete variables
  4643. this is literally a simple summation but for continuous variables the number of
  4644. possible values of x is infinite so we use integration to estimate the area
  4645. under the curve.  This area is of course 1 for the total curve.  Now consider
  4646. one value of x.  You can use the probability distribution for x to estimate the
  4647. chance of observing that x at random in the population.  For discrete
  4648. distributions we do literally calculate p but for continuous distributions we
  4649. consider a partial area under the curve or probability density function which
  4650. represents the probability that x lies between 2 specified values.
  4651.  
  4652. Most of the time you will be dealing outcomes which are values of a statistic
  4653. calculated as a test of some hypothesis.  The so called test statistic can
  4654. usually be compared with one of the standard probability distributions.  The
  4655. p value derived from this test statistic is then used to accept or refute the
  4656. test hypothesis with an accepted level of certainty.  This sort of result often
  4657. gives a false sense of security as it says nothing about the assumptions of your
  4658. test.  The use of confidence intervals gives a more realistic representation of
  4659. a test result but it most certainly does NOT reflect a test used with invalid
  4660. assumptions.  Please read the help text regarding assumptions when you are
  4661. using any of the hypothesis tests in Arcus.
  4662.  
  4663. Discrete distributions: eg Binomial, Poisson
  4664. Continuous distributions: eg Normal, Chi-square, Student's t, F
  4665.  
  4666. If you need more information about probability and sampling theory then please
  4667. consult one of the introductory or core texts listed in the reference section.
  4668.  
  4669. |Normal| (Gaussian)
  4670.  
  4671. The normal distribution is the most important continuous probability
  4672. distribution.  It was first described by De Moivre in 1733 and subsequently by
  4673. the German mathematician C. F. Gauss (1777 - 1885).  Arcus gives you the tail
  4674. areas and percentage points for this function.  Please note that the upper and
  4675. lower tails are not simply 1.0 minus the other. (ref A3, A4)
  4676.  
  4677. ¬<Distributions>╪213522    ¬
  4678.  
  4679. |Chi-square|
  4680.  
  4681. The chi-square statistic is related to the sum of squares of a number of
  4682. standard normal variables and is associated with a positively (left) skewed
  4683. distribution which approaches symmetry as the sample size increases.  Arcus can
  4684. be used to calculate the probability associated with a chi-square random
  4685. variable with given degrees of freedom and to calculate the percentage points
  4686. of this distribution (ref A5).  A reliable approach to the incomplete gamma
  4687. integral is used (ref A16).
  4688.  
  4689. ¬<Distributions>╪213522    ¬
  4690.  
  4691. |Student's t|
  4692.  
  4693. t represents a family of distributions which are shaped by nu degrees of
  4694. freedom.  When nu is infinite t becomes a normal distribution.  This family of
  4695. distributions is associated with W. S. Gosset who, at the turn of the century,
  4696. published his work under the pseudonym Student.  Arcus uses the relationship
  4697. between Student's t and Snedecor's f to calculate the tail areas and percentage
  4698. points of t distributions for given degrees of freedom.
  4699.  
  4700. ¬<Distributions>╪213522    ¬
  4701.  
  4702. |F (variance ratio)|
  4703.  
  4704. Snedecor's f describes the distribution of variance estimates of two samples,
  4705. each from a normal distribution.  The size of each sample is reflected in the
  4706. degrees of freedom nu1 and nu2.  Arcus calculates tail areas and percentage
  4707. points for given numerator (nu1) and denominator (nu2) degrees of freedom.
  4708. Reliable approaches to the beta function are used in these calculations
  4709. (ref A7, A8, A9, A10).
  4710.  
  4711. ¬<Distributions>╪213522    ¬
  4712.  
  4713. |Studentized Range Q|
  4714.  
  4715. The Studentized range, Q, is the range of means divided by the estimated
  4716. standard error for a given group of samples.  This is often used in multiple
  4717. comparison / simultaneous inference methods which accompany analyses of
  4718. variance.  Arcus calculates tail areas and percentage points for a given number
  4719. of samples and sample sizes.  Please note that these calculations are highly
  4720. complex and will take longer than any of the other distribution functions
  4721. particularly with large numbers of samples (ref A11, A12).
  4722.  
  4723. ¬<Distributions>╪213522    ¬
  4724.  
  4725. |Binomial|
  4726.  
  4727. The binomial distribution describes a random variable which is the number of
  4728. successes in n trials.  There must be only two outcomes to the trial, success
  4729. or failure.  Each of the n repetitions of this trial must also be completely
  4730. independent.  Arcus calculates cumulative probabilities for (>=, <=, =) r
  4731. successes in n trials.  Confidence intervals for binomial proportions are given
  4732. with the Arcus sign test.
  4733.  
  4734. ¬<Distributions>╪213522    ¬
  4735.  
  4736. |Poisson|
  4737.  
  4738. The Poisson distribution represents the probabilities of r events occurring
  4739. independently and at random in certain defined circumstances with mean µ.
  4740. This approximates a binomial distribution when the number of trials is large
  4741. and the probability of success on each trial is small.  Arcus calculates
  4742. cumulative probabilities that (<=, >=, =) r random events are contained in an
  4743. interval when the average number of such events per interval is µ.
  4744.  
  4745. ¬<Distributions>╪213522    ¬
  4746.  
  4747. |Spearman's Rho| / Hotelling-Pabst
  4748.  
  4749. Given a value for the Hotelling-Pabst test statistic (T) or Spearman's rho this
  4750. function calculates the probability of obtaining a value greater than or equal
  4751. to T.  Upper tail probabilities are calculated using a recurrence method when
  4752. n < 7 and the Edgeworth series expansion when n >= 7.  The maximum error for any
  4753. probability is 0.0004 (ref A13).
  4754.  
  4755. ¬<Distributions>╪213522    ¬
  4756.  
  4757. |Kendall's Tau|
  4758.  
  4759. Given a value for the test statistic (S) associated with Kendall's tau this
  4760. function calculates the probability of obtaining a value greater than or equal
  4761. to S for a given sample size.  Upper tail probabilities are calculated using a
  4762. recurrence method when n < 9 and an improved Edgeworth series expansion when
  4763. n >= 9 (ref A14).  The two samples are assumed to have been ranked without ties.
  4764.  
  4765. ¬<Distributions>╪213522    ¬
  4766.  
  4767. |Chi-square Tests|
  4768.  
  4769. ¬<2 by 2>╪223812    ¬
  4770. ¬<2 by k>╪230817    ¬
  4771. ¬<r by c>╪227666    ¬
  4772. ¬<Matched pairs (McNemar, Liddell)╪233702    ¬
  4773. ¬<Mantel-Haenszel>╪235832    ¬
  4774. ¬<Woolf>╪239133    ¬
  4775.  
  4776. Chi-square tests compare observed and expected frequencies of individuals
  4777. grouped by different categories.  Arcus applies the basic chi-square analysis
  4778. to a number of different contingency table designs.  The larger the resultant
  4779. chi-square statistic (for given degrees of freedom) the more likely there is
  4780. to be a significant difference between observed and expected frequencies.  A null
  4781. hypothesis that there is no difference between the populations from which you
  4782. quantify observed and expected frequencies is tested by comparing the calculated
  4783. chi-square statistic with percentage points of the chi-square distribution.
  4784. This is valid provided that the numbers are not too small, in general any
  4785. expected frequency should be greater than five.
  4786.  
  4787. |Haldane| correction
  4788.  
  4789. This is a method used to avoid error in the calculation of some of the chi-
  4790. square tests in Arcus.  It involves adding 0.5 to all of the cells of a
  4791. contingency table if any of the cell expectations would cause a division by
  4792. zero error.
  4793.  
  4794. |2 by 2| contingency table chi-square test
  4795.  
  4796. The two by two or fourfold contingency table is commonly used to compare two
  4797. proportions.  The rows represent two classifications of one variable (e.g.
  4798. infection/no infection) and the columns represent two classifications of another
  4799. variable (e.g. antiseptic wash/no antiseptic).  These classifications must be
  4800. independent.  Paired results (e.g. same group of individuals before and after
  4801. antiseptic wash) should be analysed using a test for ¬matched pairs╪233702    ¬.
  4802.  
  4803. Fisher's exact test should be used as an alternative to the fourfold chi-square
  4804. test if the total number is less than twenty or any of the expected frequencies
  4805. are less than five.  In practical terms, however, there is little point in using
  4806. the fourfold chi-square test when Arcus provides you with a Fisher's exact test
  4807. which can cope with reasonably large numbers.  In the fourfold chi-square test
  4808. you are advised to use the Yates' corrected value as this improves the
  4809. approximation of your discrete sample chi-square statistic to a continuous chi
  4810. square distribution (ref 4).
  4811.  
  4812. The odds ratio of this 2 by 2 table is given and the associated approximate
  4813. confidence interval (CI) is calculated using two different methods.  The CI
  4814. using the logit method for large samples is given first followed by the CI
  4815. using Cornfield's method (ref 9, 11).  The latter is the most reliable method
  4816. but the logit method might be more acceptable if a convergent solution has not
  4817. been achieved with Cornfield's method.
  4818.  
  4819. EXAMPLE (from Armitage ref 4 p 126):
  4820.  
  4821. The following represent mortality data for two groups of patients receiving
  4822. different treatments, A and B.
  4823.  
  4824.                              Outcome
  4825.                            Dead   Alive
  4826.  Treatment / Exposure  A   41     216
  4827.                        B   64     180
  4828.  
  4829. To analyse these data in Arcus you must select the 2 by 2 contingency table
  4830. from the chi-square sub-menu of the instant functions menu in the analysis
  4831. section.  Select a 95%  confidence interval by pressing the enter key when
  4832. prompted by the confidence interval menu.  Enter the frequencies into the
  4833. contingency table on screen as shown above.
  4834.  
  4835. For this example:
  4836.  
  4837.  Observed values and totals:
  4838.  ╔════════════════╤════════════════╤════════════════╗
  4839.  ║ 41             │ 216            │ 257            ║
  4840.  ╟────────────────┼────────────────┼────────────────╢
  4841.  ║ 64             │ 180            │ 244            ║
  4842.  ╠════════════════╪════════════════╪════════════════╣
  4843.  ║ 105            │ 396            │ 501            ║
  4844.  ╚════════════════╧════════════════╧════════════════╝
  4845.  
  4846.  Expected values:
  4847.  ╔════════════════╤════════════════╗
  4848.  ║ 53.86227       │ 203.1377       ║
  4849.  ╟────────────────┼────────────────╢
  4850.  ║ 51.13773       │ 192.8623       ║
  4851.  ╚════════════════╧════════════════╝
  4852.  
  4853.  Yates-corrected Chi² = 7.370595     P = 0.0066
  4854.  
  4855.  Coefficient of contingency:         V = -0.126198
  4856.  
  4857.  Using Cornfield's Method for a 95% CI:
  4858.  Odds ratio (after ¬Haldane╪223546    ¬ correction) = 0.536423
  4859.  Upper limit:  0.335953
  4860.  Lower limit:  0.847064
  4861.  
  4862. Here we can see a statistically significant relationship between treatment
  4863. and mortality.  The strength of that relationship is reflected by the
  4864. coefficient of contingency.  The odds ratio tells us that the odds in favour of
  4865. dying after treatment A are about half of the odds of dying after treatment B.
  4866. With 95% confidence we put the true population value for this ratio of odds
  4867. somewhere between 0.34 and 0.85.  If you need to phrase the arguments with
  4868. odds ratios the other way around then just quote the reciprocals, i.e. here
  4869. we would say that the odds of dying after treatment A are 1.86 times greater
  4870. than after treatment B.
  4871.  
  4872. ¬<p values>╪29175     ¬
  4873. ¬<confidence intervals>╪31897     ¬
  4874. ¬<reference list>╪310584    ¬
  4875.  
  4876. |R by C| contingency table chi-square test
  4877.  
  4878. The r by c chi-square test extends the chi-square method to any number of
  4879. independent categories expressed as r rows and c columns of a contingency
  4880. table.  The overall test indicates the degree of independence between the
  4881. variables which make up the table.  An analysis of trend indicates how much of
  4882. the difference between the mean scores for the columns can be accounted for by
  4883. linear trend.  Armitage (ref 4) quotes an example where extent of grief of
  4884. mothers suffering a perinatal death, graded I to IV, is compared with the
  4885. degree of support received by these women.  In this example the overall
  4886. statistic is non-significant but a significant trend is demonstrated.  The
  4887. largest table for a display of individual results is 8 columns by 10 rows but
  4888. general results are given for larger tables, with the maximum table size being
  4889. limited only by your computer's memory.  Observed values, expected values and
  4890. totals are given for the table when c <= 8 and r <= 10.
  4891.  
  4892. EXAMPLE (from Armitage ref 4 p 378):
  4893.  
  4894. The following data (as above) describe the state of grief of 66 mums who had
  4895. suffered a neonatal death.  The table relates this to the amount of support
  4896. given to these women:
  4897.  
  4898.                                    Support
  4899.                         Good      Adequate    Poor
  4900.  Grief State     I       17          9          8
  4901.                 II       6           5          1
  4902.                III       3           5          4
  4903.                 IV       1           2          5
  4904.  
  4905. To analyse these data in Arcus you must select r by c from the chi-square test
  4906. menu of the instant functions menu in the analysis section.  Press N when asked
  4907. about percentages.  Choose a 95% confidence interval by pressing the enter key
  4908. when prompted by the confidence interval menu.  Then select the number of rows
  4909. as 4 and the number of columns as 3.  You then enter the above data as
  4910. directed by the screen.
  4911.  
  4912. For this example:
  4913.  
  4914. Observed      17       9       8      34
  4915. Expected   13.91   10.82    9.27
  4916. DChi²       0.69    0.31    0.17
  4917. Observed       6       5       1      12
  4918. Expected    4.91    3.82    3.27
  4919. DChi²       0.24    0.37    1.58
  4920. Observed       3       5       4      12
  4921. Expected    4.91    3.82    3.27
  4922. DChi²       0.74    0.37    0.16
  4923. Observed       1       2       5       8
  4924. Expected    3.27    2.55    2.18
  4925. DChi²       1.58    0.12    3.64
  4926. Totals:       27      21      18      66
  4927.  
  4928.  
  4929. TOTAL number of cells = 12
  4930. WARNING:  9  out of  12  cells  have  1 <= EXPECTATION < 5
  4931.  
  4932. Overall chi-square = 9.9588  P = 0.1264
  4933.  
  4934. Chi-square for equality of mean scores = 5.784033  P = 0.0555
  4935.  
  4936. Chi-square for trend in mean scores = 5.746874  P = 0.0165 *
  4937.  
  4938. Chi-square for departures from trend = 0.037159   P = 0.8471
  4939.  
  4940. Coefficients of contingency:
  4941. Pearson's = 0.362088
  4942. Cramer's  = 0.274673
  4943.  
  4944. Here we see that although the overall test was not significant we did show a
  4945. statistically significant trend in mean scores.  This suggests that supporting
  4946. these mothers did help lessen their burden of grief.
  4947.  
  4948. ¬<p values>╪29175     ¬
  4949. ¬<reference list>╪310584    ¬
  4950.  
  4951. |2 by k| contingency table chi-square test
  4952.  
  4953. Several proportions can be compared using a two by k chi-square test.  For
  4954. example, a village can be subdivided into k age groups and counts made of those
  4955. individuals with and those without a particular disease marker.  From the
  4956. overall test you can see whether or not age has a significant effect on the
  4957. disease studied.  Arcus also performs a test for linear trend across the k
  4958. groups.  You can opt to enter your own scores for the trend test.  For example,
  4959. if a variable was categorised as mild, moderate or severe you would want to
  4960. enter your own scores if the data were not presented in order (ref 4).  You
  4961. could equally use the r by c chi-square test for these functions, it just
  4962. has a different style of presentation and data input.  If you need coefficients
  4963. of contingency then you should use the r by c chi-square function.
  4964.  
  4965. EXAMPLE  (from Armitage ref 4  p 373):
  4966.  
  4967. The following data describe numbers of children with different sized palatine
  4968. tonsils and their carrier status for Strep. pyogenes.
  4969.  
  4970.                                   Tonsils
  4971.                 Present but       Enlarged        Greatly
  4972.                 not enlarged                      enlarged
  4973. Carriers            19               29               72
  4974. Non-carriers       497              269             1326
  4975.  
  4976. To analyse these data in Arcus you must select 2 by k from the chi-square test
  4977. sub-menu of the instant functions menu in the analysis section.  Then select
  4978. the middle option from the 2 by k chi-square test menu.  Choose a 95% confidence
  4979. interval by pressing the enter key when prompted by the confidence interval
  4980. menu.  Then select the number of rows as 3.  You then enter the above data as
  4981. directed by the screen.  Use carriers as successes and non-carriers as failures.
  4982.  
  4983. For this example:
  4984.  
  4985.                Successes      Failures       Total          Per cent
  4986. Observed       19             497            516            3.682171
  4987. Expected       26.57511       489.4249
  4988. Observed       29             560            589            4.923599
  4989. Expected       30.33476       558.6652
  4990. Observed       24             269            293            8.191126
  4991. Expected       15.09013       277.9099
  4992. Total          72             1326           1398           5.150215
  4993.  
  4994. Total Chi² = 7.884844  P = 0.0194 *
  4995.  
  4996. Chi² for linear trend = 7.192746  P = 0.0073 **
  4997.  
  4998. Remaining Chi² (non-linearity) = .6920977   P = 0.4055
  4999.  
  5000. Here the total chi-square test shows a statistically significant association
  5001. between the classifications, i.e. between tonsil size and Strep. pyogenes
  5002. carrier status.  We have also shown a significant linear trend which enables
  5003. us to refine our conclusions to a suggestion that the proportion of Strep.
  5004. pyogenes carriers increases with tonsil size.
  5005.  
  5006. ¬<p values>╪29175     ¬
  5007. ¬<reference list>╪310584    ¬
  5008.  
  5009. |Matched pairs (McNemar, Liddell)|
  5010.  
  5011. Paired proportions have traditionally been compared using McNemar's test but an
  5012. exact alternative is now available (after Liddell 1983).  Arcus gives you both.
  5013. You enter your data in the 2 by 2 format with discordant cells at top right and
  5014. bottom left.  The exact test gives you a two tailed probability and exact
  5015. confidence limits for the odds ratio.  You should use the exact test for your
  5016. analysis, McNemar's test is included for interest only.
  5017.  
  5018. If you need the exact confidence interval for the difference between the pair
  5019. of proportions then please use the "paired proportions" function of the
  5020. proportions menu from the instant functions menu of the analysis section.
  5021.  
  5022. EXAMPLE  (from Armitage ref 4 p 122):
  5023.  
  5024. The data below represent a comarison of two media for culturing Mycobacterium
  5025. tuberculosis.  Fifty suspect sputum specimens were plated up on both media
  5026. and the following results were obtained:
  5027.  
  5028.                                Medium B
  5029.                          Growth     No Growth
  5030.     Medium  A:    Growth   20          12
  5031.                No Growth    2          16
  5032.  
  5033. To analyse these data in Arcus you must select the matched pairs (McNemar,
  5034. Liddell) option from the chi-square menu of the instant functions menu in the
  5035. analysis section.  Select a 95%  confidence interval by pressing the enter key
  5036. when prompted by the confidence interval menu.  Enter the frequencies into the
  5037. contingency table on screen as shown above.
  5038.  
  5039. For this example:
  5040.  
  5041. McNemar's test:
  5042. Yates' continuity corrected Chi² = 5.785714  P = 0.0162 *
  5043.  
  5044. After Liddell (1983):
  5045.  
  5046. Point estimate of relative risk (R') = 6
  5047. Exact 95% confidence interval = 1.335772 to 55.07571
  5048.  
  5049. F = 4  P (two tailed) = 0.0129 *
  5050. R' is significantly different from unity
  5051.  
  5052. Here we can conclude that the tubercle bacilli in the experiment grew
  5053. significantly better on medium A than on medium B.  With 95% confidence we
  5054. can state that the chances of a positive culture are between 1.34 and 55.08
  5055. times greater on medium A than on medium B.
  5056.  
  5057. ¬<p values>╪29175     ¬
  5058. ¬<reference list>╪310584    ¬
  5059.  
  5060. |Mantel-Haenszel| test for a 2 by 2 series
  5061.  
  5062. In case-control studies observed frequencies can often be represented by a
  5063. series of two by two tables.  Each stratum of this series represents
  5064. observations taken at different times, different places or another system of
  5065. sub-grouping within one large study.  The estimation of relative risk can
  5066. utilise the method of Mantel and Haenszel or that of Woolf.  The Mantel-Haenszel
  5067. method is more robust when some of the strata contain small frequencies.  Data
  5068. for these tests are entered as a series of two by two tables, each table
  5069. corresponding to a stratum of your investigation. Each table has the standard
  5070. (++), (+-), (-+), (--) format with (-+) and (--) for controls.
  5071.  
  5072. The Mantel-Haenszel pooled estimate of the odds ratio is given with test based
  5073. approximate confidence limits calculated by the method of Miettinen (ref 4).
  5074. The chi-square test statistic is given with associated probability of the odds
  5075. ratio being unity.
  5076.  
  5077. EXAMPLE  (from Armitage ref 4 p 463):
  5078.  
  5079. The following data compare the smoking status of lung cancer patients with
  5080. controls.  Ten different studies are combined in an attempt to improve the
  5081. overall estimate of relative risk.  The matching of controls has been ignored
  5082. because there was not enough information about matching from each study to be
  5083. sure that the matching was the same in each study.
  5084.  
  5085.             Lung cancer                Controls
  5086.        smoker     non-smoker     smoker     non-smoker
  5087.          83           3             72          14
  5088.          90           3            227          43
  5089.         129           7             81          19
  5090.         412          32            299         131
  5091.        1350           7           1296          61
  5092.          60           3            106          27
  5093.         459          18            534          81
  5094.         499          19            462          56
  5095.         451          39           1729         636
  5096.         260           5            259          28
  5097.  
  5098. To analyse these data in Arcus you must select the Mantel-Haenszel function
  5099. from the chi-square sub-menu of the instant functions menu in the analysis
  5100. section.  Select a 95%  confidence interval by pressing the enter key when
  5101. prompted by the confidence interval menu.  Enter the number of tables as 10.
  5102. Then enter each row of the table above as a separate 2 by 2 contingency table:
  5103.  
  5104.  i.e.   The first row is entered as:
  5105.  
  5106.                      Smkr   Non
  5107.                    ╔══════╤══════╗
  5108.        Lung cancer ║  83  │   3  ║
  5109.                    ╟──────┼──────╢
  5110.            control ║  72  │  14  ║
  5111.                    ╚══════╧══════╝
  5112.  
  5113.                    ... this is then repeated for each of the ten rows.
  5114.  
  5115. For this example:
  5116.  
  5117. Mantel Haenzsel Chi square = 292.3788   P < 0.0001  ***
  5118.  
  5119. Mantel Haenzsel pooled estimate of odds ratio = 4.681639
  5120. Approximate 95% CI = 3.922422 to 5.587809
  5121.  
  5122. Here we can say with 95% confidence that the true population odds in favour of
  5123. being a smoker were between 3.9 and 5.6 times greater in patients who had lung
  5124. cancer compared with controls.  This estimate of the relative risk is obviously
  5125. highly significantly different from unity.
  5126.  
  5127. ¬<p values>╪29175     ¬
  5128. ¬<confidence intervals>╪31897     ¬
  5129. ¬<reference list>╪310584    ¬
  5130.  
  5131. |Woolf| statistics for 2 by 2 tables & series
  5132.  
  5133. In case-control studies observed frequencies can often be represented by a
  5134. series of two by two tables.  Each stratum of this series represents
  5135. observations taken at different times, different places or another system of
  5136. sub-grouping within one large study.  The estimation of relative risk can
  5137. utilise the method of Mantel and Haenszel or that of Woolf.  The ¬Mantel-Haenszel╪235832    ¬
  5138. method is more robust when some of the strata contain small frequencies.  Data
  5139. for these tests are entered as a series of two by two tables, each table
  5140. corresponding to a stratum of your investigation. Each table has the standard
  5141. (++), (+-), (-+), (--) format with (-+) and (--) for controls.
  5142.  
  5143. With the Woolf method results for an individual quad of data are displayed after
  5144. you have entered that table, please remember this when entering a large series.
  5145. When all tables have been entered the combined statistics (¬Haldane╪223546    ¬ corrected),
  5146. including chi-square for heterogeneity, are given.
  5147.  
  5148. EXAMPLE  (from Armitage ref 4 p 463):
  5149.  
  5150. The following data compare the smoking status of lung cancer patients with
  5151. controls.  Ten different studies are combined in an attempt to improve the
  5152. overall estimate of relative risk.  The matching of controls has been ignored
  5153. because there was not enough information about matching from each study to be
  5154. sure that the matching was the same in each study.
  5155.  
  5156.             Lung cancer                Controls
  5157.        smoker     non-smoker     smoker     non-smoker
  5158.          83           3             72          14
  5159.          90           3            227          43
  5160.         129           7             81          19
  5161.         412          32            299         131
  5162.        1350           7           1296          61
  5163.          60           3            106          27
  5164.         459          18            534          81
  5165.         499          19            462          56
  5166.         451          39           1729         636
  5167.         260           5            259          28
  5168.  
  5169. To analyse these data in Arcus you must select the Woolf function from the
  5170. chi-square sub-menu of the instant functions menu in the analysis section.
  5171. Select a 95% confidence interval by pressing the enter key when prompted by
  5172. the confidence interval menu.  Enter the number of tables as 10.  Then enter
  5173. each row of the table above as a separate 2 by 2 contingency table:
  5174.  
  5175.  i.e.   The first row is entered as:
  5176.  
  5177.                      Smkr   Non
  5178.                    ╔══════╤══════╗
  5179.        Lung cancer ║  83  │   3  ║
  5180.                    ╟──────┼──────╢
  5181.            control ║  72  │  14  ║
  5182.                    ╚══════╧══════╝
  5183.  
  5184.                    ... this is then repeated for each of the ten rows.
  5185.  
  5186. For this example:
  5187.  
  5188. Statistics from combined values with Haldane correction:
  5189.  
  5190. Odds ratio = 4.510211
  5191.  
  5192. Approximate 95% CI  =  3.733489  to  5.448524
  5193.  
  5194. Chi² for E(LOR) = 0 is 254.0865   P < 0.0001  ***
  5195. Chi² for Heterogeneity = 6.532662   P = 0.6856
  5196.  
  5197. Here we can say that there was no convincing evidence of heterogeneity between
  5198. the separate estimates of relative risk from each of the different studies.
  5199. The pooled estimate suggested that with 95% confidence that the true population
  5200. odds for being a smoker were between 3.7 and 5.4 times greater in lung cancer
  5201. patients compared with controls.  The result using the Mantel-Haenszel method
  5202. gave 3.9 to 5.6, the difference is partly accounted for by the Haldane
  5203. correction.  I would, however, advise you to keep to the Mantel-Haenszel method
  5204. for general use, it is more robust.  I have included Woolf's method for those
  5205. who want to go further with the inter-table statistics.
  5206.  
  5207. ¬<p values>╪29175     ¬
  5208. ¬<confidence intervals>╪31897     ¬
  5209. ¬<reference list>╪310584    ¬
  5210.  
  5211. |Exact Tests|
  5212.  
  5213. ¬<Fisher's exact test>╪243294    ¬
  5214. ¬<Matched pairs (McNemar, Liddell)╪233702    ¬
  5215. ¬<Exact confidence limits for 2 by 2 odds>╪247832    ¬
  5216. ¬<Sign test>╪249896    ¬
  5217.  
  5218. Various exact treatments of two by two tables are given in this section.
  5219. Permutational probabilities and exact confidence limits are provided.
  5220.  
  5221. |Fisher's Exact Test|
  5222.  
  5223. This exact treatment of the fourfold table should be used instead of the chi
  5224. square test when any of the expected frequencies are less than five.  In
  5225. practical terms, however, there is little point in using the fourfold chi
  5226. square test when Arcus provides you with a Fisher's exact test which can cope
  5227. with reasonably large numbers.  Arcus uses the definition of a two tailed p
  5228. value described by N. T. J. Bailey (ref 27).  Finney recommends doubling the
  5229. one tailed value and controversy remains.  Arcus calculates the conventional
  5230. exact test until the numbers are so large that the intermediate steps would
  5231. cause overflow error, at this point the hyper geometric distribution is
  5232. utilised.  The data entry is identical to the procedure for the chi-square 2
  5233. by 2 table and indeed, results for a chi-square test are given with Fisher's
  5234. exact test results.  The rearranged table is displayed with the expectation of
  5235. the first cell.  The chi-square test results are included for educational
  5236. purposes only, you should make your inferences from the Fisher's p values.
  5237.  
  5238. EXAMPLE (from Armitage ref 4 p 130):
  5239.  
  5240. The following data compare malocclusion of teeth with method of feeding infants.
  5241.  
  5242.                Normal teeth       Malocclusion
  5243.   Breast fed        4                  16
  5244.   Bottle fed        1                  21
  5245.  
  5246. To analyse these data in Arcus you must select the Fisher's exact test function
  5247. from the exact tests sub-menu of the instant functions menu in the analysis
  5248. section.  Enter the frequencies into the contingency table on screen as shown
  5249. above.
  5250.  
  5251. For this example:
  5252.  
  5253.  Rearranged table:
  5254.  ╔════════════════╤════════════════╤════════════════╗
  5255.  ║ 4              │ 1              │ 5              ║
  5256.  ╟────────────────┼────────────────┼────────────────╢
  5257.  ║ 16             │ 21             │ 37             ║
  5258.  ╠════════════════╪════════════════╪════════════════╣
  5259.  ║ 20             │ 22             │ 42             ║
  5260.  ╚════════════════╧════════════════╧════════════════╝
  5261.  Expectation of A = 2.380952
  5262.  
  5263.  1-tailed probability (Upper tail)   = 0.143527      (Doubled = 0.287054)
  5264.  2-tailed probability (by summation) = 0.174484
  5265.  
  5266. Here we have to accept the null hypothesis that there is no association between
  5267. these two classifications, i.e. between feeding method and malocclusion.
  5268.  
  5269. ¬<p values>╪29175     ¬
  5270. ¬<reference list>╪310584    ¬
  5271.  
  5272. |Expanded Fisher-Irwin test|
  5273.  
  5274. This allows you to see a conventional Fisher's exact test in more detail.
  5275. The complete conditional distribution for the observed marginal totals
  5276. is displayed.  Arcus utilises double precision floating point arithmetic
  5277. for the exact tests (ref 27).
  5278.  
  5279. EXAMPLE (from Armitage ref 4 p 130):
  5280.  
  5281. The following data compare malocclusion of teeth with type of feeding received
  5282. by infants.
  5283.  
  5284.                Normal teeth       Malocclusion
  5285.   Breast fed        4                  16
  5286.   Bottle fed        1                  21
  5287.  
  5288. To analyse these data in Arcus you must select the Fisher's exact test function
  5289. from the exact tests sub-menu of the instant functions menu in the analysis
  5290. section.  Enter the frequencies into the contingency table on screen as shown
  5291. above.
  5292.  
  5293. For this example:
  5294.  
  5295.  Rearranged table:
  5296.  ╔════════════════╤════════════════╤════════════════╗
  5297.  ║ 4              │ 1              │ 5              ║
  5298.  ╟────────────────┼────────────────┼────────────────╢
  5299.  ║ 16             │ 21             │ 37             ║
  5300.  ╠════════════════╪════════════════╪════════════════╣
  5301.  ║ 20             │ 22             │ 42             ║
  5302.  ╚════════════════╧════════════════╧════════════════╝
  5303.  Expectation of A = 2.380952
  5304.  
  5305.  A     Lower Tail              Individual P             Upper Tail
  5306.  0     0.030956848030019       0.030956848030019        1.000000000000000
  5307.  1     0.202939337085679       0.171982489055660        0.969043151969981
  5308.  2     0.546904315196998       0.343964978111320        0.797060662914321
  5309.  3     0.856472795497186       0.309568480300188        0.453095684803002
  5310.  4     0.981774323237738       0.125301527740552        0.143527204502814
  5311.  5     1.000000000000000       0.018225676762262        0.018225676762262
  5312.  
  5313.  1-sided probability (Upper tail)  =  0.1435272045   (Doubled =  0.2870544090)
  5314.  2-sided probability (by summation)=  0.1744840525
  5315.  
  5316. Here we have to accept the null hypothesis that there is no association between
  5317. these two classifications, i.e. between feeding mode and malocclusion.
  5318.  
  5319. ¬<p values>╪29175     ¬
  5320. ¬<reference list>╪310584    ¬
  5321.  
  5322. |Exact Confidence Limits for 2 by 2 Odds|
  5323.  
  5324. Gart's method is used here to construct exact confidence limits for the odds
  5325. ratio of a fourfold table (ref A15).  The default selections are 95, 99 and 90
  5326. per cent two tailed values but you may enter individual tail areas.  Thus, for
  5327. a one tailed 95% confidence limit you would enter a lower tail area of 0 and
  5328. an upper tail area of 5.  These exact confidence limits complement Fisher's
  5329. exact test of independence in a fourfold table.  Please note that this
  5330. iterative calculation will take a long time with large numbers.
  5331.  
  5332. EXAMPLE (from Thomas ref A15):
  5333.  
  5334. The following data look at the criminal convictions of twins in an attempt to
  5335. investigate the hereditability of criminality.
  5336.  
  5337.                 Convicted    Not-Convicted
  5338.     Dizygotic       2             15
  5339.   Monozygotic      10              3
  5340.  
  5341. To analyse these data in Arcus you must select exact confidence limits for
  5342. 2 by 2 odds from the exact tests sub-menu.  To select a 95% two tailed
  5343. confidence interval just press enter when you are presented with the confidence
  5344. interval menu.
  5345.  
  5346. For this example:
  5347.  
  5348.  Rearranged table:
  5349.  ╔════════════════╤════════════════╤════════════════╗
  5350.  ║ 15             │ 2              │ 17             ║
  5351.  ╟────────────────┼────────────────┼────────────────╢
  5352.  ║ 3              │ 10             │ 13             ║
  5353.  ╠════════════════╪════════════════╪════════════════╣
  5354.  ║ 18             │ 12             │ 30             ║
  5355.  ╚════════════════╧════════════════╧════════════════╝
  5356.  
  5357.  Fisher-Irwin p (1 sided) = 0.000465     Doubled = 0.00093
  5358.  
  5359.  Confidence limits with 2.5% lower tail area and 2.5% upper tail area
  5360.  {two tailed}
  5361.  
  5362.  Observed odds ratio = 25
  5363.  Confidence limits = 301.4666 and 2.753266
  5364.  
  5365.  Reciprocal = 0.04
  5366.  Confidence limits = 0.003317 and 0.363205
  5367.  
  5368. Here we can say with 95% confidence that the odds of being a criminal convict
  5369. are between 2.75 and 301.5 times greater for identical than for non-identical
  5370. twins.
  5371.  
  5372. ¬<confidence intervals>╪31897     ¬
  5373. ¬<reference list>╪310584    ¬
  5374.  
  5375. |Sign test|
  5376.  
  5377. In a sample of size n, if r individuals show a change in one particular
  5378. direction then the sign test can be used to assess the significance of this
  5379. change.  Arcus gives you one and two sided cumulative probabilities from a
  5380. binomial distribution with a projected proportion of 0.5 for the null
  5381. hypothesis.  An appropriate normal approximation is used with large numbers.
  5382. You are also given an exact confidence interval for the proportion r/n
  5383. (ref 5,6).  If you need a test where the projected proportion for the null
  5384. hypothesis is not 0.5 then you should use the ¬single proportion╪263180    ¬ function
  5385. listed in the proportions sub-menu of the Arcus instant functions menu.
  5386.  
  5387. EXAMPLE (from Altman ref 4 p 186)
  5388.  
  5389. Out of a group of 11 women investigated 9 were found to have a food energy
  5390. intake below the daily average and 2 above.  We want to quantify the impact
  5391. of 9 out of 11, i.e. how much evidence have we got that these women are
  5392. different from the norm?
  5393.  
  5394. To analyse these data in Arcus you must select the sign test from the instant
  5395. functions menu of the analysis section.  To select a 95% two tailed confidence
  5396. interval just press enter when you are presented with the confidence interval
  5397. menu.
  5398.  
  5399. For this example:
  5400.  
  5401.  For 11 pairs with 9 on one side.
  5402.  
  5403.  Cumulative probability (2-sided) = 0.06543
  5404.                         (1-sided) = 0.032715 *
  5405.  
  5406.  Exact 95% Confidence limits for the Proportion:
  5407.  Lower Limit = 0.482248
  5408.  Proportion  = 0.818182
  5409.  Upper Limit = 0.977122
  5410.  
  5411. If we were confident that this group could only realistically be expected to
  5412. have a lower caloric intake then we could make inference from the one tailed
  5413. p value.  We do not, however, have this evidence so we must accept the null
  5414. hypothesis that this proportion is not significant.  We can say with 95%
  5415. confidence that the true population value of the proportion lies somewhere
  5416. between 0.48 and 0.98.  The most sensible response to these results would be
  5417. to go back and collect more data.
  5418.  
  5419. ¬<p values>╪29175     ¬
  5420. ¬<confidence intervals>╪31897     ¬
  5421. ¬<reference list>╪310584    ¬
  5422.  
  5423. |Randomisation| Functions
  5424.  
  5425. This section employs a well tried and widely accepted random number generator
  5426. to randomise series of numbers for given allocation designs. The results can
  5427. be used in the design of randomised studies.  Please note that the random
  5428. number generator is reseeded each time it is used and you have virtually no
  5429. chance of using the same (pseudo)random number series for different
  5430. randomisations.  For more information on the random number generator used here
  5431. please see "¬random numbers╪254271    ¬".
  5432.  
  5433.  
  5434. a)      You can randomise a series of integers for which you define the
  5435.         beginning and end points of the series.  For example, randomising
  5436.         numbers from 6 to 10 might give 8 6 9 10 7, this is like shuffling
  5437.         5 cards labelled 6 to 10.
  5438.  
  5439. b)      Random allocation of cases and controls for paired case-control
  5440.         studies.  For example, you might want to randomise 50 patients into
  5441.         treatment (case) and placebo (control) groups for a pilot study of a
  5442.         new drug.  This would give 50 pairs of CASE - CONTROL or CONTROL - CASE.
  5443.         If this was a randomised crossover study then you would give drug first
  5444.         if the order was CASE - CONTROL and you would give placebo first if the
  5445.         order was CONTROL - CASE.
  5446.  
  5447. c)      Random allocation of subjects to case or control groups for unpaired
  5448.         case-control studies.  For example, you might want to look at the effect
  5449.         of a new treatment.  For a randomised controlled trial you might
  5450.         randomly allocate some patients for this new treatment and compare them
  5451.         with similar patients who did not receive this treatment.  For 24
  5452.         patients in two groups of 12 you would enter 24 into this section of
  5453.         Arcus randomisation.  This would give you two groups of 12 e.g.:
  5454.  
  5455.         CASES     CONTROLS
  5456.         2         1
  5457.         5         3
  5458.         6         4
  5459.         7         8
  5460.         9         11
  5461.         10        12
  5462.         13        14
  5463.         15        16
  5464.         19        17
  5465.         20        18
  5466.         21        22
  5467.         24        23
  5468.  
  5469.         Here the first patient would be allocated to the control group and
  5470.         the second to the treatment group etc.
  5471.  
  5472. |Random Numbers|
  5473.  
  5474. There is much fear of computer generated random numbers because of some bad
  5475. random number generators which have cropped up over the years.  This is not a
  5476. problem in Arcus Pro-Stat because it uses well tried and tested methods.
  5477.  
  5478. If you want to get down to basics you might ask, what is random?.  A lecture
  5479. theatre filled with Mathematicians, Philosophers and Elemental Physicists
  5480. would love to debate this, enough said.  What we can do is look for evidence
  5481. of non-randomness such as repeated patterns.  Various methods have been
  5482. employed to look for non-randomness from "random" number generators since they
  5483. began to emerge around 35 years ago.  Several "quick and dirty" random number
  5484. generators have become widely used because they are supplied with computer
  5485. language compilers.  These generators often use over simple methods which
  5486. produce sequences of numbers with repeating patterns.  This is unacceptable for
  5487. statistical use.
  5488.  
  5489. Arcus Pro-Stat uses the widely accepted Park & Miller "minimal" method extended
  5490. with a Bays-Durham shuffle.  This is well described by Press et al. (ref 33).
  5491.  
  5492. Most random number generators require a seed.  If the generator is given the
  5493. same seed each time it is called then it will produce the same series of
  5494. numbers.  This is not acceptable for many purposes therefore Arcus seeds the
  5495. random number generator with a number which is the taken from your computer's
  5496. clock.  This number is the number of hundredth's of a second which have elapsed
  5497. since midnight.  You will therefore understand why it is very difficult to
  5498. recall the same "random" sequence from Arcus when you ask Arcus to seed the
  5499. generator for you.  You can also choose to enter your own seed.
  5500.  
  5501. |Sample Size| Estimations
  5502.  
  5503. ¬<for paired t test>╪257921    ¬
  5504. ¬<for unpaired t test>╪258472    ¬
  5505. ¬<for independent case-control>╪259089    ¬
  5506. ¬<for matched case-control>╪260701    ¬
  5507. ¬<for independent prospective>╪259879    ¬
  5508. ¬<for paired prospective>╪261568    ¬
  5509. ¬<for population surveys>╪262306    ¬
  5510.  
  5511. At the design stage of an investigation one must try to minimise the probability
  5512. of failing to detect a real effect, i.e. type II error (false negative).
  5513. Minimum sample sizes necessary to avoid given levels of type II error are
  5514. calculated by Arcus for population surveys, for the comparison of proportions
  5515. and for the comparison of means.
  5516.  
  5517. Type II error is indicated in reverse by the power of a study, thus power is the
  5518. probability of detecting a true effect.  You are asked to select a power level
  5519. for your study along with the two tailed significance level which you intend to
  5520. use in subsequent analysis.  The latter considers type I error, the probability
  5521. of incorrectly rejecting the null hypothesis (false positive).
  5522.  
  5523. Minimum sample sizes are estimated for the comparison of means using Student t
  5524. tests, the comparison of proportions and for population surveys.  Provision is
  5525. made for paired and unpaired designs in case-control studies or independent
  5526. group studies.  All of these calculations require you to enter a value for power
  5527. (the probability of detecting a true effect) and alpha (the probability of
  5528. detecting a false effect); all calculations consider two tailed investigation
  5529. (ref 4, 8, 11, 30, 31).  Other information required depends upon the type of
  5530. study being planned; each required parameter is described in the help screen of
  5531. the relevant menu selection.  I must emphasise the point that good design lies
  5532. at the heart of good research and for important studies statistical advice
  5533. should be sought at the planning stage!.
  5534.  
  5535. ¬<reference list>╪310584    ¬
  5536.  
  5537. Sample Size |for Paired t Test|
  5538.  
  5539. This function gives you the minimum number of pairs of subjects needed to detect
  5540. a true difference DELTA in population means with power POWER and two sided
  5541. type I error probability ALPHA (ref 30, 31).
  5542.  
  5543. INFORMATION REQUIRED:
  5544.  
  5545. POWER - Probability of detecting a true effect.
  5546. ALPHA - Probability of detecting a false effect (two sided).
  5547. DELTA - Difference in population means.
  5548. SD    - Estimated standard deviation of paired response differences.
  5549.  
  5550. ¬<reference list>╪310584    ¬
  5551. ¬<sample size>╪256010    ¬
  5552.  
  5553. Sample Size |for Unpaired t Test|
  5554.  
  5555. This function gives you the minimum number of experimental subjects needed to
  5556. detect a true difference DELTA in population means with power POWER and two
  5557. sided type I error probability ALPHA (ref 30, 31).
  5558.  
  5559. INFORMATION REQUIRED:
  5560.  
  5561. POWER - Probability of detecting a true effect.
  5562. ALPHA - Probability of detecting a false effect (two sided).
  5563. DELTA - Difference in population means.
  5564. SD    - Estimated standard deviation for within group differences.
  5565. M     - Number of control subjects per experimental subject.
  5566.  
  5567. ¬<reference list>╪310584    ¬
  5568. ¬<sample size>╪256010    ¬
  5569.  
  5570. Sample Size |for Independent Case-Control| studies
  5571.  
  5572. This function gives the minimum number of case subjects required to detect a
  5573. real odds ratio or case exposure rate with power POWER and two sided type I
  5574. error probability ALPHA.  This sample size is also given as a continuity
  5575. corrected value intended for use with corrected chi-square and Fisher's exact
  5576. tests (ref 10, 30).
  5577.  
  5578. POWER - Probability of detecting a real effect.
  5579. ALPHA - Probability of detecting a false effect (two sided).
  5580. P0    - Probability of exposure in controls.
  5581. (P1   - Probability of exposure in case subjects.) *Input P1 or OR.
  5582. (OR   - Odds ratio of exposures between cases and controls.)
  5583. M     - Number of control subjects per case subject.
  5584.  
  5585. ¬<reference list>╪310584    ¬
  5586. ¬<sample size>╪256010    ¬
  5587.  
  5588. Sample Size |for Independent Prospective| studies
  5589.  
  5590. This function gives the minimum number of case subjects required to detect a
  5591. true relative risk or experimental event rate with power POWER and two sided
  5592. type I error probability ALPHA.  This sample size also given as a continuity
  5593. corrected value intended for use with corrected chi-square and Fisher's exact
  5594. tests (ref 8, 10, 30).
  5595.  
  5596. POWER - Probability of detecting a real effect.
  5597. ALPHA - Probability of detecting a false effect (two sided).
  5598. P0    - Probability of event in controls.
  5599. (P1   - Probability of event in experimental subjects) *Input P1 or RR.
  5600. (RR   - Relative risk of events between experimental subjects and controls.)
  5601. M     - Number of control subjects per experimental subject.
  5602.  
  5603. ¬<reference list>╪310584    ¬
  5604. ¬<sample size>╪256010    ¬
  5605.  
  5606. Sample Size |for Matched Case-Control| studies
  5607.  
  5608. This function gives you the minimum sample size necessary to detect a true
  5609. odds ratio OR with power POWER and a two sided type I error probability ALPHA.
  5610. If you are using more than one control per case then this function also provides
  5611. the reduction in sample size relative to a paired study that you can obtain
  5612. using your number of controls per case (ref 10, 30).
  5613.  
  5614. INFORMATION REQUIRED:
  5615.  
  5616. POWER  -  Probability of detecting a real effect.
  5617. ALPHA  -  Probability of detecting a false effect (two sided).
  5618. R      -  Correlation coefficient for exposure between matched
  5619.           cases and controls.
  5620. P0     -  Probability of exposure in the control group.
  5621. P1     -  Number of control subjects matched to each case subject.
  5622. OR     -  Odds ratio.
  5623.  
  5624. ¬<reference list>╪310584    ¬
  5625. ¬<sample size>╪256010    ¬
  5626.  
  5627. Sample Size |for Paired Prospective| studies
  5628.  
  5629. This function gives you the minimum number of subject pairs that you require
  5630. to detect a true relative risk RR with power POWER and two sided type I error
  5631. probability ALPHA (ref 10, 30).
  5632.  
  5633. INFORMATION REQUIRED:
  5634.  
  5635. POWER - Probability of detecting a real effect.
  5636. ALPHA - Probability of detecting a false effect (two sided).
  5637. R     - Correlation coefficient for failure between paired subjects.
  5638. ***Next input is either P0 and RR or P0 and P1 (when RR=P0/P1).***
  5639. P0     - Event rate in the control group.
  5640. *(P1   - Event rate in experimental group.)
  5641. *(RR   - Risk of failure of experimental subjects relative to controls.
  5642.  
  5643. ¬<reference list>╪310584    ¬
  5644. ¬<sample size>╪256010    ¬
  5645.  
  5646. Sample Size |for Population Surveys|
  5647.  
  5648. This function gives you the minimum number of subjects that you require for a
  5649. survey of a population for a difference in the proportion of individuals in
  5650. that population displaying a particular factor (ref 10).
  5651.  
  5652. INFORMATION REQUIRED:
  5653.  
  5654. Confidence level (i.e. 1-ALPHA)
  5655. (ALPHA - Probability of detecting a false effect (two sided).)
  5656. Population size
  5657. Proportion (as %) of the population displaying a particular factor.
  5658. A difference (as %) in that proportion you want to be able to detect.
  5659.  
  5660. ¬<reference list>╪310584    ¬
  5661. ¬<sample size>╪256010    ¬
  5662.  
  5663. |Proportions|
  5664.  
  5665. ¬<Single proportion>╪263180    ¬
  5666. ¬<Paired proportions>╪266823    ¬
  5667. ¬<Unpaired proportions>╪265024    ¬
  5668.  
  5669. This section constructs confidence limits and probabilities for various
  5670. presentations of proportions.  Exact tests are employed wherever possible.
  5671.  
  5672. |Single Proportion|
  5673.  
  5674. This function gives you the exact and approximate confidence interval for a
  5675. single proportion.  There is also an hypothesis test for the proportion in
  5676. comparison  with the expected proportion under the null hypothesis. You enter
  5677. this expected proportion when prompted for the probability of success on each
  5678. trial.  This test uses the relevant binomial distribution. For example, when
  5679. comparing two preparations of a drug, if 65 out of 100 patients preferred
  5680. preparation A then the significance of this majority could be expressed by the
  5681. hypothesis test and described by the confidence interval (ref 4, 11).
  5682.  
  5683. EXAMPLE (from Armitage ref 4 p 116):
  5684.  
  5685. In a trial of two analgesics, X and Y, 100 patients tried each drug for a week.
  5686. The trial order was randomised.  65 out of 100 preferred drug Y.
  5687.  
  5688. To analyse these data in Arcus you must select single proportion from the
  5689. proportions sub-menu of the instant functions menu in the analysis section.
  5690. To select a 95% confidence interval just press enter when you are presented
  5691. with the confidence interval menu.  Enter n as 100 and r as 65.  Enter the
  5692. binomial test proportion as 0.5, this is because you would expect 50% of an
  5693. infinite number of patients to prefer drug Y if there was no difference between
  5694. X and Y.
  5695.  
  5696. For this example:
  5697.  
  5698. Proportion = 0.65
  5699.  
  5700. Exact 95% Confidence Limits:
  5701. Lower Limit = 0.548151
  5702. Upper Limit = 0.742706
  5703.  
  5704. Using null hypothesis that the population proportion equals 0.5:
  5705. Binomial two tailed P = 0.0035 **
  5706.  
  5707. Here we can conclude that the proportion was statistically significantly
  5708. different from 0.5.  With 95% confidence we can state that the true population
  5709. value for the proportion lies somewhere between 0.55 and 0.74.
  5710.  
  5711. ¬<p values>╪29175     ¬
  5712. ¬<confidence intervals>╪31897     ¬
  5713. ¬<reference list>╪310584    ¬
  5714.  
  5715. |Unpaired Proportions|
  5716.  
  5717. Two independent proportions may be compared using this function.  It is assumed
  5718. that your data have been observed from random samples of the two independent
  5719. populations.  For example, the proportion of patients surviving a particular
  5720. surgical emergency could be compared for surgical and non-surgical management
  5721. protocols.  An hypothesis test for the equality of these proportions is given
  5722. along with a confidence interval for the difference between the proportions.
  5723. A normal approximation is used for both of these methods thus you should avoid
  5724. small numbers (ref 4).
  5725.  
  5726. EXAMPLE (from Armitage ref 4 p 124):
  5727.  
  5728. Two methods of treatment, A and B, for a particular disease were investigated.
  5729. Out of 257 patients treated with method A 41 died and out of 244 patients
  5730. treated with method B 64 died.  We want to compare these fatality rates.
  5731.  
  5732. To analyse these data in Arcus you must select unpaired proportions from the
  5733. proportions sub-menu of the instant functions menu in the analysis section.
  5734. To select a 95% confidence interval just press enter when you are presented
  5735. with the confidence interval menu.  Enter n1 as 257, r1 as 41, n2 as 244 and
  5736. r2 as 64.
  5737.  
  5738. For this example:
  5739.  
  5740. Proportion 1 = 0.159533
  5741. Proportion 2 = 0.262295
  5742.  
  5743. 95% confidence interval for the difference = -0.173829 to -0.031695
  5744.  
  5745. Normal deviate (Z) = -2.824689
  5746. Two tailed P = 0.0047 **
  5747. One tailed P = 0.0024 **
  5748.  
  5749. Here we can conclude that the difference between these two proportions is
  5750. statistically significantly different from zero.  With 95% confidence we can
  5751. state that the true population fatality rate with treatment B is between 0.03
  5752. and 0.17 greater than with treatment A.
  5753.  
  5754. ¬<p values>╪29175     ¬
  5755. ¬<confidence intervals>╪31897     ¬
  5756. ¬<reference list>╪310584    ¬
  5757.  
  5758. |Paired Proportions|
  5759.  
  5760. Two proportions may be paired by sharing a common feature.  For example, when
  5761. comparing two culture media a sputum sample from one patient is plated onto both
  5762. culture media, this is the "pairing".  The procedure is then repeated for a
  5763. number of patients to allow proportions to be compared.   Arcus gives you an
  5764. hypothesis test for the equality of these proportions and a confidence interval
  5765. for the difference between them.  Exact methods are used throughout (ref 4, 20).
  5766. The two tailed p value from the hypothesis test equates with the exact test for
  5767. a paired fourfold table (Liddell) which has been presented above.  With large
  5768. numbers an appropriate normal approximation is used in the hypothesis test.
  5769.  
  5770. EXAMPLE (from Armitage ref 4 p 122):
  5771.  
  5772. The data below represent a comarison of two media for culturing Mycobacterium
  5773. tuberculosis.  Fifty suspect sputum specimens were plated up on both media
  5774. and the following results were obtained:
  5775.  
  5776.                                Medium B
  5777.                          Growth     No Growth
  5778.     Medium  A:    Growth   20          12
  5779.                No Growth    2          16        N = 50
  5780.  
  5781. To analyse these data in Arcus you must select paired proportions from the
  5782. proportions sub-menu of the instant functions menu in the analysis section.
  5783. Select a 95% confidence interval by pressing enter when you are presented
  5784. with the confidence interval menu.  Enter n as 50, ++(k) as 20, +-(r) as 12 and
  5785. -+(s) as 2.
  5786.  
  5787. For this example:
  5788.  
  5789. Proportion 1          = 0.64      (k+r)/n
  5790. Proportion 2          = 0.44      (k+s)/n
  5791. Proportion difference = 0.2       (r-s)/n
  5792.  
  5793. Cumulative probability (2-sided) = 0.012939 *
  5794.                        (1-sided) = 0.00647  **
  5795.  
  5796. Exact 95% Confidence Limits for the proportion difference:
  5797. Lower Limit = 0.040251
  5798. Upper Limit = 0.270014
  5799.  
  5800. Here we can conclude that the proportion difference is statistically
  5801. significantly different from zero.  With 95% confidence we can say that the
  5802. true population value for the proportion difference lies somewhere between
  5803. 0.04 and 0.27.  This leaves us with little doubt that medium A is more
  5804. effective than medium B for the culture of tubercle bacilli.
  5805.  
  5806. Compare these results with the exact test for ¬matched pairs╪233702    ¬.  Some find it
  5807. easier to discuss this type of result in terms of estimated relative risk.
  5808.  
  5809. ¬<p values>╪29175     ¬
  5810. ¬<confidence intervals>╪31897     ¬
  5811. ¬<reference list>╪310584    ¬
  5812.  
  5813. |Miscellaneous| Functions
  5814.  
  5815. ¬<Relative risk>╪269584    ¬
  5816. ¬<Diagnostic test 2 by 2 table>╪272252    ¬
  5817. ¬<Likelihood ratios for 2 by k tables>╪276470    ¬
  5818. ¬<Number needed to treat>╪279627    ¬
  5819. ¬<False result probabilities>╪282414    ¬
  5820. ¬<Standardized mortality ratios>╪285320    ¬
  5821.  
  5822. |Relative Risk| in Incidence Studies
  5823.  
  5824. In studies of the incidence of a particular outcome in two groups of
  5825. individuals, defined by the presence or absence of a particular characteristic,
  5826. the odds ratio for the resultant fourfold table becomes the relative risk.
  5827. Relative risk is used for prospective studies where you follow groups with
  5828. different characteristics to observe whether or not a particular outcome
  5829. occurs:
  5830.  
  5831.                 Group 1  Group 2
  5832.  OUTCOME  YES     A        B
  5833.            NO     C        D
  5834.  
  5835.  Relative Risk = [A/(A+C)]/[B/(B+D)]
  5836.  
  5837. In retrospective studies where you select subjects by outcome not by group
  5838. characteristic then you would use the odds ratio ((a/c)/(b/d)) and not the
  5839. relative risk.  The odds ratio is often appropriate to case-control studies.
  5840. Arcus gives confidence intervals for the odds ratio in the 2 by 2 chi-square
  5841. test and in the exact confidenece interval for 2 by 2 odds which is listed in
  5842. the exact tests menu.
  5843.  
  5844. This function gives you the relative risk with a confidence interval.  The
  5845. iterative methods of approximation recommended by Gart and Nam are used in this
  5846. function (ref 35).  Please note that relative risk, risk ratio and likelihood
  5847. ratio are the same calculation.
  5848.  
  5849.  
  5850. EXAMPLE (from Altman ref 5  p 267)
  5851.  
  5852. The following data represent a prospective investigation of Apgar score in
  5853. babes who had been classified either as symmetric or asymmetric growth
  5854. retardation on the basis of ultrasound investigation.
  5855.  
  5856.               Symmetric IUGR   Asymmetric IUGR
  5857.  
  5858.  Apgar  < 7       2                33
  5859.  
  5860.  Apgar  >=7      14                58
  5861.  
  5862. To analyse these data in Arcus you must select relative risk from the
  5863. miscellaneous sub-menu of the instant functions menu in the analysis section.
  5864. Select a 95% confidence interval by pressing enter when you are presented
  5865. with the confidence interval menu.  Then enter the above frequencies into the
  5866. 2 by 2 table on the screen.
  5867.  
  5868. For this example:
  5869.  
  5870. Risk ratio (relative risk in incidence study) = 0.344697
  5871.  
  5872. The 95% CI = 0.094377 to 1.040814
  5873. The 90% CI = 0.114327 to 0.902673
  5874.  
  5875. N.B. This is more accurate than the logit confidence interval quoted in ref 5.
  5876.  
  5877. Here we can say that the risk of a low Apgar score for symmetrically growth
  5878. retarded babes is about 35% of that risk for their asymmetrically growth
  5879. retarded counterparts.  There are, however, rather few observations in the
  5880. symmetrical group which is reflected by the broad 95% confidence interval.
  5881. An appropriate response to these "suggestive" results would be to go back and
  5882. collect more data.
  5883.  
  5884. ¬<confidence intervals>╪31897     ¬
  5885. ¬<reference list>╪310584    ¬
  5886.  
  5887. |Diagnostic Test 2 by 2 table|
  5888.  
  5889. The quality of a diagnostic test is often expressed in terms of sensitivity and
  5890. specificity.  Sensitivity is the ability of that test to pick up what you are
  5891. looking for and specificity is the ability of the test to reject what you are
  5892. not looking for.
  5893.  
  5894.                       DISEASE
  5895.               Present         Absent
  5896.  
  5897.    TEST   +   a (true +ve)    b (false +ve)
  5898.  
  5899.           -   c (false -ve)   d (true -ve)
  5900.  
  5901.  
  5902.    Sensitivity = a/(a+c)
  5903.    Specificity = d/(b+d)
  5904.  
  5905.    Likelihood ratio of a positive test = [a/(a+c)]/[b/(b+d)]
  5906.    Likelihood ratio of a negative test = [c/(a+c)]/[d/(b+d)]
  5907.  
  5908. Likelihood ratios have become useful because they enable one to quantify the
  5909. effect a particular test result has on the probability of a certain diagnosis
  5910. or outcome.  Using a simplified form of Bayes' theorem:
  5911.  
  5912.    posterior odds = prior odds * likelihood ratio
  5913.  
  5914.    where     odds = probability/(1-probability)
  5915.              probability = odds/(odds+1)
  5916.  
  5917. This Arcus function gives you the predictive values (post-test likelihood) with
  5918. change, prevalence (pre-test likelihood), sensitivity, specificity and
  5919. likelihood ratios (ref 12, 36).  The confidence intervals for the likelihood
  5920. ratios are constructed using the iterative method suggested by Gart and Nam
  5921. (ref 35).  This function is not truly Bayesian because it does not use any
  5922. starting probability.  It does, however, provide a generator for likelihood
  5923. ratios which can then be used to direct the flow of probability in Bayesian
  5924. analysis.  For an excellent account of this approach in medical diagnosis I
  5925. advise you to read David Sackett's book (ref 12).
  5926.  
  5927. EXAMPLE (from Sackett ref 12 p 109):
  5928.  
  5929. Initial creatine phosphokinase (CK) levels were related to the subsequent
  5930. diagnosis of acute myocardial infarction (MI) in a group of patients with
  5931. suspected MI.  80 international units of CK or greater was taken as an arbitrary
  5932. positive test result:
  5933.  
  5934.  
  5935.                MI      No MI
  5936.   CK >= 80     215     16
  5937.   CK <  80     15      114
  5938.  
  5939. To analyse these data in Arcus you must select diagnostic test 2 by 2 table
  5940. from the miscellaneous sub-menu of the instant functions menu in the analysis
  5941. section.  Select a 95% confidence interval by pressing enter when you are
  5942. presented with the confidence interval menu.  Then enter the above frequencies
  5943. into the 2 by 2 table on the screen.
  5944.  
  5945. For this example:
  5946.  
  5947.                                 Disease / Feature:
  5948.                    present             absent             totals
  5949.      Test:   ╔══════════════════╤══════════════════╤══════════════════╗
  5950.      Positive║  215             │  16              │  231             ║
  5951.              ║                 A│B                 │                  ║
  5952.              ╟──────────────────┼──────────────────┼──────────────────╢
  5953.      Negative║   15            C│D 114             │  129             ║
  5954.              ║                  │                  │                  ║
  5955.              ╟──────────────────┼──────────────────┼──────────────────╢
  5956.        Totals║  230             │  130             │  360             ║
  5957.              ╚══════════════════╧══════════════════╧══════════════════╝
  5958.  
  5959. Prevalence (pre-test likelihood of disease) = 0.638889  = 64%
  5960.  
  5961. Predictive value of +ve test
  5962. (post-test likelihood of disease) = 0.930736  = 93%  {change = 29%}
  5963.  
  5964. Predictive value of -ve test
  5965. (post-test likelihood of no disease) = 0.116279  = 12%  {change = -52%}
  5966.  
  5967. Sensitivity (true positive rate) = 0.934783  = 93%
  5968. Specificity (true negative rate) = 0.876923  = 88%
  5969.  
  5970. Likelihood ratios with 95% confidence intervals:
  5971.  
  5972. LR (positive test) = 7.595109  (4.897431 to 12.12324)
  5973. LR (negative test) = 0.074371  (0.045345 to 0.120077)
  5974.  
  5975. Here we can say with 95% confidence that CK results of >=80 are at least 4.9
  5976. times more likely to come from patients who have had an MI than they are to
  5977. come from those who have not had an MI.  Also with 95% confidence we can say
  5978. that CK results of <80 are at most only one tenth (0.12) as likely to come
  5979. from patients who have had an MI than they are to come from those who have not
  5980. had an MI.
  5981.  
  5982. ¬<confidence intervals>╪31897     ¬
  5983. ¬<reference list>╪310584    ¬
  5984.  
  5985. |Likelihood ratios for 2 by k tables|
  5986.  
  5987. The quality of a diagnostic test is often expressed in terms of sensitivity and
  5988. specificity.  Sensitivity is the ability of that test to pick up what you are
  5989. looking for and specificity is the ability of the test to reject what you are
  5990. not looking for.
  5991.  
  5992.                       DISEASE
  5993.               Present         Absent
  5994.  
  5995.    TEST   +   a (true +ve)    b (false +ve)
  5996.  
  5997.           -   c (false -ve)   d (true -ve)
  5998.  
  5999.  
  6000.    Sensitivity = a/(a+c)
  6001.    Specificity = d/(b+d)
  6002.  
  6003.    Likelihood ratio of a positive test = [a/(a+c)]/[b/(b+d)]
  6004.    Likelihood ratio of a negative test = [c/(a+c)]/[d/(b+d)]
  6005.  
  6006. Likelihood ratios have become useful because they enable one to quantify the
  6007. effect a particular test result has on the probability of a certain diagnosis
  6008. or outcome.  Using a simplified form of Bayes' theorem:
  6009.  
  6010.    posterior odds = prior odds * likelihood ratio
  6011.  
  6012.    where     odds = probability/(1-probability)
  6013.              probability = odds/(odds+1)
  6014.  
  6015. We can generalise these methods to situations of more than two test outcomes.
  6016. In this situation we have a two by k design where k is the number of test
  6017. outcomes studied.  If one test outcome is called test level j then the
  6018. likelihood ratio at level j is given by:
  6019.  
  6020.    likelihood ratio j = p(tj_disease)/p(tj_no disease)
  6021.  
  6022.    where p(tj_ is the proportion displaying the relevant test result at level j
  6023.  
  6024. This Arcus function gives you likelihood ratios and their confidence intervals
  6025. for each level of test result (ref 12, 36).  The confidence intervals for the
  6026. likelihood ratios are constructed using the iterative method suggested by Gart
  6027. and Nam (ref 35).
  6028.  
  6029. EXAMPLE (from Sackett ref 12 p 111):
  6030.  
  6031. Initial creatine phosphokinase (CK) levels were related to the subsequent
  6032. diagnosis of acute myocardial infarction (MI) in a group of patients with
  6033. suspected MI.  Four ranges of CK result were chosen for the study:
  6034.  
  6035.                    MI      No MI
  6036.   CK >= 280        97          1
  6037.   CK  = 80-279    118         15
  6038.   CK  = 40-79      13         26
  6039.   CK  = 1-39        2         88
  6040.  
  6041. To analyse these data in Arcus you must select likelihood ratios for 2 by k
  6042. tables from the miscellaneous sub-menu of the instant functions menu in the
  6043. analysis section.  Select a 95% confidence interval by pressing enter when you
  6044. are presented with the confidence interval menu.  Enter the number of test
  6045. levels as 4 then enter the above frequencies as prompted on the screen.
  6046.  
  6047. For this example:
  6048.  
  6049. RESULT   + FEATURE      - FEATURE      Likelihood ratio with 95% CI
  6050.  
  6051. 1        97             1              54.82609  (9.923024 to 311.5679)
  6052. 2        118            15             4.446377  (2.772549 to 7.315978)
  6053. 3        13             26             0.282609  (0.151798 to 0.524821)
  6054. 4        2              88             0.012846  (0.003513 to 0.046229)
  6055.  
  6056. Here we can say with 95% confidence that CK results of >=280 are at least ten
  6057. (9.9) times more likely to come from patients who have had an MI than they are
  6058. to come from those who have not had an MI.
  6059.  
  6060. ¬<confidence intervals>╪31897     ¬
  6061. ¬<reference list>╪310584    ¬
  6062.  
  6063. |Number needed to treat|
  6064.  
  6065. The object of treating patients is to prevent adverse outcomes.  If we look at
  6066. one treatment or intervention in isolation then we can study its effect on the
  6067. outcome or the adverse effect in question.  Laupacis et al. quote the large
  6068. Veterans Administration Trial where anti-hypertensives were investigated over
  6069. three years for their effect on target organ damage rates (ref 37).  Let us
  6070. look at the definitions of some outcome statistics:
  6071.  
  6072.                        Treated   Placebo
  6073.   ADVERSE EVENT   YES    A          B
  6074.                    NO    C          D
  6075.  
  6076. LET:   Pc = proportion of subjects in control group who suffer an event
  6077.        Pt = proportion of subjects in treated group who suffer an event
  6078.  
  6079.        Pc = B / (B + D)
  6080.        Pt = A / (A + C)
  6081.  
  6082. THEN:  Relative risk reduction = (Pc - Pt) / Pc      = RR
  6083.        Absolute risk reduction =  Pc - Pt            = ARR = RR * Pc
  6084.        Number needed to treat  = 1 / (Pc - Pt)       = 1 / ARR
  6085.  
  6086.  
  6087. Arcus gives you relative risk, relative risk reduction, absolute risk reduction
  6088. and the number needed to treat.  Confidence intervals for each of these
  6089. statistics are calculated using the iterative approaches advocated by Gart and
  6090. Nam (ref 35, 38).
  6091.  
  6092. EXAMPLE (from Haynes & Sackett ref 38):
  6093.  
  6094. In a trial of a drug for the treatment of severe congestive heart failure 607
  6095. patients were treated with a new angiotensin converting enzyme inhibitor (ACEi)
  6096. and 607 other patients were treated with a standard non-ACEi régime.  123 out
  6097. of 607 patients on the non-ACEi régime died within six months and 94 out of the
  6098. 607 ACEi treated patients died within six months.
  6099.  
  6100. To analyse these data in Arcus you must select number needed to treat from the
  6101. miscellaneous sub-menu of the instant functions menu in the analysis section.
  6102. Select a 95% confidence interval by pressing enter when you are presented with
  6103. the confidence interval menu.  Enter the number of controls as 607 with 123
  6104. suffering an event and enter the number treated as 607 with 94 suffering an
  6105. event.
  6106.  
  6107. For this example:
  6108.  
  6109. Proportion of controls suffering an event = 0.202636
  6110. Proportion of treated suffering an event  = 0.15486
  6111.  
  6112. With 95% CI's:
  6113.  
  6114. Relative risk = 0.764228  (0.598901 to 0.974216)
  6115. Relative risk reduction = 0.235772  (0.025784 to 0.401099)
  6116. Absolute risk reduction = 0.047776  (0.005225 to 0.081277)
  6117. Number needed to treat  = 21  (12 to 191)
  6118.  
  6119. Here we can say, with 95% confidence, that you need to treat as many as 191
  6120. or as few as 12 patients in severe congestive heart failure with this ACEi in
  6121. order to prevent one death that would not have been prevented with the standard
  6122. non-ACEi therapy in six months of treatment.
  6123.  
  6124. ¬<confidence intervals>╪31897     ¬
  6125. ¬<reference list>╪310584    ¬
  6126.  
  6127. |False result probabilities|
  6128.  
  6129. When considering a diagnostic test for screening populations it is important
  6130. to consider the number of false negative and false positive results you will
  6131. have to deal with.  The quality of a diagnostic test is often expressed in
  6132. terms of sensitivity and specificity.  Sensitivity is the ability of that test
  6133. to pick up what you are looking for and specificity is the ability of the test
  6134. to reject what you are not looking for.
  6135.  
  6136.                       DISEASE
  6137.               Present         Absent
  6138.  
  6139.    TEST   +   a (true +ve)    b (false +ve)
  6140.  
  6141.           -   c (false -ve)   d (true -ve)
  6142.  
  6143.    Sensitivity = a/(a+c)
  6144.    Specificity = d/(b+d)
  6145.  
  6146. We can apply Bayes' theorem if we know the approximate likelihood that a subject
  6147. has the disease before they come for screening, this is given by the prevalence
  6148. of the disease.  For low prevalence diseases the false negative rate will be
  6149. low and the false positive rate will be high.  For high prevalence diseases the
  6150. the false negative rate will be high and the false positive rate will be lower.
  6151. People are often surprised by the high numbers of projected false positives, you
  6152. need a highly specific test to keep this number low.  The false positive rate
  6153. of a screening test can be reduced by repeating the test.  In some cases a test
  6154. is performed three times and the patient is declared positive if at least two
  6155. out of the three component tests were positive.  This Arcus function simply
  6156. gives you the probability of false positive and false negative results for a
  6157. given prevalence of the disease being tested for (ref 8).
  6158.  
  6159. EXAMPLE  (from Fleiss ref 8 p 9):
  6160.  
  6161. In a hypothetical example 2000 patients were tested with a screening test for
  6162. a disease.  Of these 2000 patients 1000 were known to have the disease and 1000
  6163. were known to be free of the disease:
  6164.  
  6165.                       DISEASE
  6166.               Present         Absent
  6167.  
  6168.    TEST   +   950 (true +ve)   10  (false +ve)
  6169.  
  6170.           -   50 (false -ve)   990 (true -ve)
  6171.  
  6172. To analyse these data in Arcus you must select false result probabilities from
  6173. the miscellaneous sub-menu of the instant functions menu in the analysis
  6174. section.  Enter the true +ve rate as 0.95 (950/(950+50)) and the false +ve rate
  6175. as 0.01 (10/(990+10)).  Enter the prevalence as 1 in 100 by entering n as 100.
  6176.  
  6177. For this example:
  6178.  
  6179. For prevalence of 100 per ten thousand of population tested:
  6180.  
  6181. Test SENSITIVITY = 95%
  6182. Probability of a FALSE POSITIVE result = 0.510309
  6183.  
  6184. Test SPECIFICITY = 99%
  6185. Probability of a FALSE NEGATIVE result = 0.00051
  6186.  
  6187. Here we see that more than half of the patients tested will give a positive
  6188. test when they do not have the disease.  This is clearly not acceptable for a
  6189. full screening method but could be used as pre-screening before further tests
  6190. if there was no better initial test available.
  6191.  
  6192. ¬<reference list>╪310584    ¬
  6193.  
  6194. |Standardized Mortality Ratios|
  6195.  
  6196. This selection uses the indirect method to calculate standardized mortality
  6197. ratios.  You must supply the mortality rates from a reference population, often
  6198. census data, and the size of each group of your study population. For each
  6199. (age) group you enter the size of that group in your study population and the
  6200. age/group specific mortality from the general population.  You are then asked
  6201. about the units in which your mortality data were entered, for example if you
  6202. entered deaths per 10,000 you should enter 10,000 and if you entered decimal
  6203. fractions you should enter 1.  The SMR is expressed in ratio and decal-integer
  6204. formats along with its approximate confidence limits.  A test based on the null
  6205. hypothesis that the number of observed and expected deaths are equal is also
  6206. given.  This test uses a Poisson distribution (ref 4, 2, 11).
  6207.  
  6208. EXAMPLE  (from Bland ref 2 p 301):
  6209.  
  6210. The following data represent the age-specific mortality rates for liver
  6211. cirrhosis in men and the number of male doctors in each age stratum:
  6212.  
  6213.  Age group   Mortality per million men per year    Number of male doctors
  6214.  15-24         5.895                                1080
  6215.  25-34        13.050                               12860
  6216.  35-44        46.937                               11510
  6217.  45-54       161.503                               10330
  6218.  55-64       271.358                                7790
  6219.  
  6220. To analyse these data in Arcus you must select standardized mortality ratios
  6221. from the miscellaneous sub-menu of the instant functions menu in the analysis
  6222. section.  Enter the number of groups as 5 then enter mortality and group size
  6223. for each age group.  Note that group size refers to the study group of doctors
  6224. and not the male population as a whole who were used to derive the mortality
  6225. data.  Enter the mortality denominator as 1000000.  Then after the expectation
  6226. table enter the observed deaths as 14.  Select a 95% confidence interval by
  6227. pressing enter when you are presented with the confidence interval menu.
  6228.  
  6229. For this example:
  6230.  
  6231. Group(age)-specific           Observed Population          Expected Deaths
  6232. mortality
  6233.  
  6234. 0.000005859                    1080                        0.006328
  6235. 0.00001305                    12860                        0.167823
  6236. 0.000046937                   11510                        0.540245
  6237. 0.000161503                   10330                        1.668326
  6238. 0.000271358                    7790                        2.113879
  6239.                                                    Total = 4.496601
  6240.  
  6241. Standardized Mortality Ratio = 3.113463
  6242. (sometimes quoted as 100 x integer = 311)
  6243. 95% confidence interval = 1.482561 to 4.744365 (148 to 474)
  6244.  
  6245. Probability of observing 14 or more deaths by chance  P = 0.0002 ***
  6246. Probability of observing 14 or fewer deaths by chance P = 0.9999
  6247.  
  6248. Here we can see that the total expected deaths from liver cirrhosis in male
  6249. doctors is 4.5 per year.  The observed number, 14, was statistically highly
  6250. significantly greater than expected.  With 95% confidence we can state that
  6251. male doctors in this country exhibit between 1.5 and 4.7 times the number of
  6252. deaths from liver cirrhosis than expected from the general male population of
  6253. a similar age distribution.  If the reason for this SMR is not obvious to you
  6254. then please attend a "ward night out" - hic!
  6255.  
  6256. ¬<p values>╪29175     ¬
  6257. ¬<confidence intervals>╪31897     ¬
  6258. ¬<reference list>╪310584    ¬
  6259.  
  6260. The Arcus |Algebraic Calculator|
  6261.  
  6262. This function is available throughout Arcus.  It is called up by pressing the
  6263. key combination [Alt]+[C].  You can use it to evaluate complex expressions or
  6264. to perform simple arithmetic.  A seventy character algebraic expression
  6265. evaluator is provided.  All calculations are done in double precision. If you
  6266. wish to evaluate an expression which consists of more than seventy characters
  6267. then you can use the Arcus worksheet; the result, however,  will be in single
  6268. precision only.
  6269.  
  6270. The functions available are listed in the help screens which are invoked by the
  6271. usual F1 key press.  These are the functions which are available in the Arcus
  6272. Worksheet plus LR which represents the last result provided by this calculator.
  6273. You can use LR in an expression even when the last result was not calculated
  6274. in the present calculator session.
  6275.  
  6276. Supported functions are:
  6277.  
  6278. Constants:      PI
  6279.                 EE as e
  6280.  
  6281. ABS             absolute value
  6282. CLOG            common (base 10) logarithm
  6283. CEXP            anti log (base 10)
  6284. EXP             anti log (base e)
  6285. LOG             natural (base e, Naperian) logarithm
  6286. SQR             square root
  6287. !               factorial (max 34)
  6288. LN!             log factorial
  6289. IZ              normal deviate for a p value
  6290. UZ              upper tail p for a normal deviate
  6291. LZ              lower tail p for a normal deviate
  6292. ^               exponentiation (to the power of)
  6293. +               addition
  6294. -               subtraction
  6295. *               multiplication
  6296. /               division
  6297. \               integer division
  6298.  
  6299. ARCCOS          arc cosine
  6300. ARCCOSH         arc hyperbolic cosine
  6301. ARCCOT          arc cotangent
  6302. ARCCOTH         arc hyperbolic cotangent
  6303. ARCCSC          arc cosecant
  6304. ARCCSCH         arc hyperbolic cosecant
  6305. ARCTANH         arc hyperbolic tangent
  6306. ARCSEC          arc secant
  6307. ARCSECH         arc hyperbolic secant
  6308. ARCSIN          arc sine
  6309. ARCSINH         arc hyperbolic sine
  6310. ATN             arc tangent
  6311. COS             cosine
  6312. COT             cotangent
  6313. COTH            hyperbolic cotangent
  6314. CSC             cosecant
  6315. CSCH            hyperbolic cosecant
  6316. SINH            hyperbolic sine
  6317. SECH            hyperbolic secant
  6318. SEC             secant
  6319. TAN             tangent
  6320. TANH            hyperbolic tangent
  6321. AND             logical AND
  6322. NOT             logical NOT
  6323. OR              logical OR
  6324. <               less than
  6325. =               equal to
  6326. >               greater than
  6327.  
  6328. Please note that the largest factorial allowed is 170! but you can work with Log
  6329. factorials via the LOG! function, e.g. LOG!(171).
  6330.  
  6331. Calculations give an order of priority to arithmetic operators, this must be
  6332. considered when entering expressions.  For example, the result of the expression
  6333. "6 - 3/2" is 4.5 and not 1.5 because division takes priority over subtraction.
  6334. The following list gives the priority of arithmetic operators in descending
  6335. order:
  6336.  
  6337. 1.      Exponentiation (^)
  6338. 2.      Negation (-X)
  6339.         (Exception = x^-y; i.e.  4^-2 is 0.0625 and not -16)
  6340. 3.      Multiplication and Division (*, /)
  6341. 4.      Integer Division (\)
  6342. 5.      Addition and Subtraction (+, -)
  6343.  
  6344. As you work through a session with the Arcus calculator you can save individual
  6345. expressions and their results to a notepad by pressing S or F2.  The notepad is
  6346. activated when you finish the present calculator session, at this point it will
  6347. present you with a list of all the results and expressions which you have saved
  6348. using the S or F2 key during the preceding session.  The notepad can be edited
  6349. and the results sent to a printer or to the current log file.
  6350.  
  6351. An expression and result stack is available in this calculator.  You save
  6352. results and their expressions to the stack when you press S or F2, i.e. the
  6353. same process as saving results to the notepad.  You can access information
  6354. from the stack for subsequent calculations using the up and down cursor keys.
  6355. These cursor keys enable you to search up and down the stack for old results
  6356. or expressions to edit.
  6357.  
  6358. |APPENDICES|
  6359.  
  6360. ¬<Glossary>╪292963    ¬
  6361. ¬<Error Codes>╪293909    ¬
  6362. ¬<ASCII codes>╪294887    ¬
  6363.  
  6364. Appendix One (|Glossary|)
  6365.  
  6366. df      = degrees of freedom
  6367. ^       = to the power of
  6368. ^Key    = Ctrl + another Key
  6369. /       = divided by
  6370. *       = multiplied by
  6371. Z       = standardized normal deviate
  6372. r       = Pearson's product moment correlation coefficient
  6373. p       = probability, see ¬<p values>╪29175     ¬
  6374. α       = significance level
  6375. x       = individual value of a vector/group/sample
  6376. n       = vector/group/sample size
  6377. µ       = mean (e.g. arithmetic mean, µ = x/n)
  6378. VAR     = variance (e.g. of mean, s² = Σx²-(Σx)²/n)
  6379. SD      = standard deviation (e.g. of mean, s = SQR(VAR))
  6380. SE      = standard error (e.g. of mean, SEM = SD/SQR(n))
  6381. MS      = mean square
  6382. CI      = confidence interval, see ¬<confidence intervals>╪31897     ¬
  6383. ln(x)   = natural (Naperian, base e) logarithm of x
  6384. vs      = versus
  6385. DOS     = disk operating system
  6386. ROM     = read only memory
  6387. PC      = personal computer
  6388. Program = programme
  6389. Disk    = disc
  6390.  
  6391. Appendix Two (|Error Codes|)
  6392.  
  6393. The error trap within Arcus Pro-Stat provides messages which explain most of
  6394. the common error states but error numbers alone are sometimes given:
  6395.  
  6396. 5       Illegal function requested
  6397. 6       Overflow/Under flow (Numbers >3.4E+38 or <1.7E-38 or vice versa for negatives)
  6398. 7       Out of memory
  6399. 9       Array or memory error
  6400. 11      Division by zero
  6401. 14      Out of memory for some text and internal program data
  6402. 16      Formula too complex
  6403. 24      Waited too long for printer (beep)
  6404. 25      Printer fault
  6405. 27      Out of paper
  6406. 51      Internal computer error
  6407. 53      Requested disk file not found
  6408. 54      Bad file mode
  6409. 55      Attempt to open an already open file (Internal)
  6410. 57      Disk drive fault
  6411. 61      Disk full
  6412. 64      Bad file name
  6413. 67      Too many files on disk/directory
  6414. 68      Requested disk does not exist
  6415. 70      Disk/File access denied
  6416. 71      Disk drive not closed
  6417. 72      Disk fault
  6418. 76      Path not found
  6419.  
  6420. Appendix Three (|ASCII codes|)
  6421.  
  6422. These are the decimal codes which can be used in the Arcus database CHR function
  6423. and which are returned by the Arcus database ASC function.  Please remember that
  6424. all of these characters are accessible through an extended keyboard by holding
  6425. down the Alt key and tapping out the relevant code on the right hand numeric key
  6426. pad.  The table below lists the characters for codes 33 to 254.  Values below
  6427. this do have character representations but they double as control characters,
  6428. e.g. 9 is a tab.  It is best to avoid these control characters if you can.  The
  6429. extended character set is represented by values above 126.  Please note that
  6430. extended characters may appear different on different computers, most notably
  6431. those running foreign language settings of DOS.
  6432.  
  6433.     30   40   50   60   70   80   90   100  110  120  130  140  150  160
  6434. 0        (    2    <    F    P    Z    d    n    x    é    î    û    á
  6435. 1        )    3    =    G    Q    [    e    o    y    â    ì    ù    í
  6436. 2        *    4    >    H    R    \    f    p    z    ä    Ä    ÿ    ó
  6437. 3   !    +    5    ?    I    S    ]    g    q    {    à    Å    Ö    ú
  6438. 4   "    ,    6    @    J    T    ^    h    r         å    É    Ü    ñ
  6439. 5   #    -    7    A    K    U    _    i    s    }    ç    æ    ¢    Ñ
  6440. 6   $    .    8    B    L    V    `    j    t    ~    ê    Æ    £    ª
  6441. 7   %    /    9    C    M    W    a    k    u        ë    ô    ¥    º
  6442. 8   &    0    :    D    N    X    b    l    v    Ç    è    ö    ₧    ¿
  6443. 9   '    1    ;    E    O    Y    c    m    w    ü    ï    ò    ƒ    ⌐
  6444.  
  6445.  
  6446.     170  180  190  200  210  220  230  240  250
  6447. 0        ┤    ╛    ╚    ╥    ▄    µ    ≡    ·
  6448. 1   ½    ╡    ┐    ╔    ╙    ▌    τ    ±    √
  6449. 2   ¼    ╢    └    ╩    ╘    ▐    Φ    ≥    ⁿ
  6450. 3   ¡    ╖    ┴    ╦    ╒    ▀    Θ    ≤    ²
  6451. 4   «    ╕    ┬    ╠    ╓    α    Ω    ⌠    ■
  6452. 5   »    ╣    ├    ═    ╫    ß    δ    ⌡
  6453. 6   ░    ║    ─    ╬    ╪    Γ    ∞    ÷
  6454. 7   ▒    ╗    ┼    ╧    ┘    π    φ    ≈
  6455. 8   ▓    ╝    ╞    ╨    ┌    Σ    ε    °
  6456. 9   │    ╜    ╟    ╤    █    σ    ∩    ∙
  6457.  
  6458.  
  6459. Code 170 and 124 characters are not shown above because they are special
  6460. characters used by this hypertext system.  170 is the angle bar on most
  6461. keyboards and 124 is the vertical dashed line on most keyboards.  In this
  6462. hypertext system 124 is used either side of a section title and 170 is used
  6463. either side of a link item.  These characters can not be used in the body of
  6464. the hypertext.
  6465.  
  6466. |HELP|
  6467.  
  6468. This hypertext system provides an electronic user guide for Arcus Pro-Stat.
  6469. You navigate its pages using the following key strokes:
  6470.  
  6471. []            Move up one line
  6472. []            Move down one line
  6473. [Page Up]      Move up one page
  6474. [Page Dn]      Move down one page
  6475. [Tab]          Move to the next link item
  6476. [Shift]+[Tab]  Move to the previous link item
  6477. [Enter]        Select the highlighted link item
  6478. [Home]         Move to top of current section
  6479. [End]          Move to bottom of current section
  6480. [I]            Search the title index
  6481. [S]            Search the entire help text for a word or phrase
  6482. [B]            Move back a page
  6483. [P], [E]       Edit ± send current section to log file or printer
  6484. [Q], [Esc]     Quit Arcus Hypertext
  6485.  
  6486. The left mouse button selects the link item or the bottom menu bar item which
  6487. is at the mouse cursor location when you press it.  The right button quits this
  6488. hypertext help system.
  6489.  
  6490. Please note that all of the information in Arcus hypertext help is contained
  6491. in printed form in the Arcus reference manual.
  6492.  
  6493. For more information please see ¬<Hypertext>╪298521    ¬.
  6494.  
  6495. |Hypertext|
  6496.  
  6497. Arcus Pro-Stat has it's own hypertext engine.  This provides on-line help within
  6498. all Arcus software and gives you the opportunity to customise Arcus to your own
  6499. needs.
  6500.  
  6501. All of the help text is contained in a file called HELP.HTT.  This is arranged
  6502. into chapters which are referred to as sections.  Each section has a title and
  6503. all of the section titles are listed in the index.  A section may contain links
  6504. to other related sections.  Each link is called a link item.  Link items are
  6505. shown as highlighted text and are often contained in angles e.g. <Link Item>.
  6506. In order to move to the section denoted by a link item you must first make sure
  6507. that the link item is active.  On color monitors, active link items are
  6508. displayed in bright green and inactive link items are dull cyan.  To make a link
  6509. item active just move through the different link items by pressing the tab key.
  6510. When you have made your chosen link item active you can select it by pressing
  6511. the enter key.  Alternatively, click on any link item with the mouse and the
  6512. left hand mouse button.  If you want to move back to the page you were reading
  6513. before you selected the link item then press [B].  The number of back pages
  6514. available is displayed by the [B] button at the bottom left of the screen.  If
  6515. you can not find what you are looking for in the index then you can search the
  6516. entire help text by pressing [S].  This searches for any word or phrase that
  6517. you specify.
  6518.  
  6519. The following keys are active in Arcus Hypertext:
  6520.  
  6521. []            Move up one line
  6522. []            Move down one line
  6523. [Page Up]      Move up one page
  6524. [Page Dn]      Move down one page
  6525. [Tab]          Move to the next link item
  6526. [Shift]+[Tab]  Move to the previous link item
  6527. [Enter]        Select the highlighted link item
  6528. [Home]         Move to top of current section
  6529. [End]          Move to bottom of current section
  6530. [I]            Search the title index
  6531. [S]            Search the entire help text for a word or phrase
  6532. [B]            Move back a page
  6533. [P], [E]       Edit ± send current section to log file or printer
  6534. [Q], [Esc]     Quit Arcus Hypertext
  6535.  
  6536. The left mouse button selects the link item or the bottom menu bar item which
  6537. is at the mouse cursor location when you press it.  The right button quits this
  6538. hypertext help system.
  6539.  
  6540. ¬<Hypertext Help System Maintenance>╪300898    ¬
  6541.  
  6542. |Hypertext Help System Maintenance|
  6543.  
  6544. You can modify and/or expand Arcus Hypertext.  The HELP.HTT file, which contains
  6545. all of the hypertext, is a plain ASCII text file.  It can be changed using any
  6546. text processor.  This is, however, a very large file which demands a good text
  6547. processor, EDIT in DOS often can not cope with this.  The easiest way to
  6548. maintain HELP.HTT is to select "hypertext help system maintenance" from the
  6549. information menu.  This is enables you to work through Arcus hypertext, edit
  6550. specified sections and create new ones.  Your old hypertext file is saved as
  6551. HELP.BAK.
  6552.  
  6553. If you are planning to do a lot of hypertext maintenance in Arcus then please
  6554. aim to use a fast computer with an efficient hard disk drive.  The re-indexing
  6555. procedure is time consuming on a 286 with an un-cached hard disk.  A well
  6556. configured 486 with a reasonably efficient hard drive will rapidly re-index
  6557. Arcus Hypertext.  Disk cache software such as SMARTDRV in MS-DOS 6 gives a
  6558. large improvement in hard disk operation.
  6559.  
  6560. There are only two special characters which you must remember when editing
  6561. Arcus hypertext, these are the vertical dashed line and the angle bar.  The
  6562. vertical dashed line is usually at the bottom left of your keyboard to the
  6563. left of Z and is usually the shifted version of the back slash \.  The vertical
  6564. dashed line has the ASCII code 124.  The angle bar is near the top left hand
  6565. corner of most keyboards and is usually the shifted version of the single
  6566. opening quote `.  The angle bar has the ASCII code 170.  Neither of these
  6567. characters can be displayed here so let the vertical dashed line = {124} and
  6568. let the angle bar = {170}.  You should also avoid the use of ASCII character
  6569. 216 (╪).
  6570.  
  6571. To mark text as a title you must include two {124} on that line.  There must
  6572. be no other text on the title line.  To mark text as a link item you must
  6573. enclose it in two {170}'s.  Only the first twenty characters of a title or a
  6574. link item are used for indexing and linking.  Try to use link items which match
  6575. section titles exactly, this enables Arcus to do all indexing for you
  6576. automatically.
  6577.  
  6578. Sample of hypertext:
  6579.  
  6580.  
  6581.  {124}Section 1{124}
  6582.  
  6583.  This is a example of body text in Arcus Hypertext.
  6584.  
  6585.  For more information please see {170}body text{170}.
  6586.  
  6587.  {124}Body Text{124}
  6588.  
  6589.  This is the section on body text which links to the link item in section 1.
  6590.  
  6591.  
  6592. Thus, the only restrictions on hypertext are the use of ASCII characters 124,
  6593. 170, 216 and control characters such as tabs (ASCII 9).  You can use any other
  6594. ASCII characters, for example, you can compose diagrams using the line drawing
  6595. charaters apart from 216 (see ¬ASCII codes╪294887    ¬).
  6596.  
  6597. There are no practical limits on the size of the Arcus hypertext file.  If you
  6598. have a vast number of sections and a large worksheet open then you might run
  6599. into memory problems on a computer with little free memory.  Otherwise you
  6600. should be able to run your own customised versions of Arcus Hypertext without
  6601. any problems.
  6602.  
  6603. If you teach statistical methods the please see ¬educational uses╪304017    ¬.
  6604.  
  6605. |Educational Uses| of Arcus Pro-Stat
  6606.  
  6607. Arcus Pro-Stat has been written for use by people of all levels of statistical
  6608. expertise.  Some Arcus users have written their own versions of the ¬hypertext╪298521    ¬
  6609. help system to give additional explanations and exercises to their students.
  6610. Arcus is also used by many experienced statisticians.  There is therefore the
  6611. potential for someone to learn statistical methods with Arcus and then go on
  6612. to practise those methods with the same package.  This avoids a second learning
  6613. curve.
  6614.  
  6615. |Finish|
  6616.  
  6617. This closes the current Arcus session.  If you have forgotten to save any new
  6618. or altered worksheet data then you will be prompted to do so before leaving
  6619. Arcus.
  6620.  
  6621. |Information|
  6622.  
  6623. This section provides pages of text on using Arcus in your approach to good
  6624. statistical design, analysis and presentation.  There is also an interactive
  6625. statistical method selection session which covers the more simple analyses.
  6626.  
  6627. |Function Overview|
  6628.  
  6629. Here is a brief summary of the functions within the analysis section of Arcus:
  6630.  
  6631. ¬DESCRIPTIVE STATISTICS╪80612     ¬
  6632. ~~~~~~~~~~~~~~~~~~~~~~
  6633. Number, arithmetic mean, variance, standard deviation, standard error of the
  6634. mean,  user defined confidence interval for the mean, geometric mean, skewness,
  6635. kurtosis, maximum, upper quartile, median, lower quartile, minimum, user
  6636. defined quantile.
  6637.  
  6638.  
  6639. ¬ARITHMETICAL MANIPULATION╪78201     ¬
  6640. ~~~~~~~~~~~~~~~~~~~~~~~~~
  6641. Manipulate one or several worksheet columns using your own formulae.
  6642. Transformations for proportions.
  6643.  
  6644.  
  6645. ¬PICTORIAL STATISTICS╪81471     ¬
  6646. ~~~~~~~~~~~~~~~~~~~~
  6647. Histogram, box and whisker, scatter, normal, survival, error bar, spread and
  6648. ladder.
  6649.  
  6650.  
  6651. ¬PARAMETRIC╪87475     ¬
  6652. ~~~~~~~~~~
  6653. Single sample Student t, paired Student t, unpaired Student t, F (variance
  6654. ratio), Z (normal distribution) and Shapiro-Wilk W test for non-normality.
  6655.  
  6656.  
  6657. ¬NONPARAMETRIC╪98877     ¬
  6658. ~~~~~~~~~~~~~
  6659. Mann-Whitney U, Wilcoxon signed ranks, Spearman's rank correlation, Kendall's
  6660. rank correlation, Cuzick's test for trend, confidence intervals for quantiles,
  6661. Kolmogorov Smirnov two sample test, Ranking and normal scores.
  6662.  
  6663.  
  6664. ¬REGRESSION AND CORRELATION╪119789    ¬
  6665. ~~~~~~~~~~~~~~~~~~~~~~~~~~
  6666. Simple linear, general/multiple linear, regression in groups (linearity,
  6667. differences between regression lines and covariances), polynomial (with area
  6668. under curve and back interpolation), linearized estimates (exponential,
  6669. geometric and hyperbolic) and probit analysis (also for logistic curves).
  6670.  
  6671.  
  6672. ¬ANALYSIS OF VARIANCE╪158578    ¬
  6673. ~~~~~~~~~~~~~~~~~~~~
  6674. One way, two way, two way with replicates/repeated measures, crossover,
  6675. Kruskal Wallis and Friedman.
  6676.  
  6677.  
  6678. ¬SURVIVAL ANALYSIS╪182274    ¬
  6679. ~~~~~~~~~~~~~~~~~
  6680. Kaplan-Meier product limit estimates of survival and the cumulative hazard
  6681. function (including plots), simple Berkson-Gage life tables, log-rank and
  6682. Wilcoxon tests and Wei Lachin.
  6683.  
  6684.  
  6685. ¬DISTRIBUTIONS╪213522    ¬
  6686. ~~~~~~~~~~~~~
  6687. Normal, chi-square, Student t, Snedecor's f, Studentized Q, binomial, poisson,
  6688. Spearman's rho and Kandall's tau.
  6689.  
  6690.  
  6691. ¬CHI-SQUARE╪218665    ¬
  6692. ~~~~~~~~~~
  6693. Two by two, two by k with trend, r by c with trend, McNemar's, Mantel Haenszel
  6694. and Woolf.
  6695.  
  6696.  
  6697. ¬EXACT╪243294    ¬
  6698. ~~~~~
  6699. Fisher's, exact (Gart) confidence intervals for two by two odds, Liddel's and
  6700. the sign test.
  6701.  
  6702.  
  6703. ¬RANDOMISATION╪252007    ¬
  6704. ~~~~~~~~~~~~~
  6705. Integer series, case-control pairs and case / control groups.
  6706.  
  6707.  
  6708. ¬SAMPLE SIZE╪256010    ¬
  6709. ~~~~~~~~~~~
  6710. For Student t tests, comparison of proportions and population studies.
  6711.  
  6712.  
  6713. ¬PROPORTIONS╪262904    ¬
  6714. ~~~~~~~~~~~
  6715. Single, unpaired and paired.
  6716.  
  6717.  
  6718. ¬MISCELLANEOUS╪269298    ¬
  6719. ~~~~~~~~~~~~~
  6720. Bayesian (test likelihoods, false result probabilities),  relative risk,
  6721. risk reductions with number needed to treat and standardized mortality ratios.
  6722.  
  6723.  
  6724. ¬ALGEBRAIC CALCULATOR╪288806    ¬
  6725. ~~~~~~~~~~~~~~~~~~~~
  6726. Full function algebraic expression evaluator available by pressing Alt+C from
  6727. any menu or result screen.
  6728.  
  6729.  
  6730. |Benefits of Registration|
  6731.  
  6732. Registered users of Arcus are kept informed of developments in the Arcus project
  6733. by newsletters.  Upgrades are offered to registered users at low cost and all
  6734. registered users can request new functions for Arcus.
  6735.  
  6736. Each Arcus registration includes a donation to a registered charity and the rest
  6737. is fed back into further research and development of Arcus.  This project is to
  6738. be supported indefinitely.
  6739.  
  6740. If you are not a registered Arcus user then you can order your copy of the
  6741. latest version of Arcus with a clip bound manual by pressing the enter key to
  6742. select the order form.  When the order form is displayed, press E and fill in
  6743. your details.  You can then print out the completed order form.
  6744.  
  6745. ¬<Order Form>╪308826    ¬
  6746.  
  6747.  |Order Form| & INVOICE FOR ARCUS PRO-STAT STATISTICAL ANALYSIS SYSTEM
  6748.  
  6749.  
  6750.  Supplier:  Medical Computing,                 Tel UK (0)695 424 034
  6751.             83, Turnpike Road,                 FAX UK (0)51 256 7001
  6752.             Aughton,
  6753.             West Lancs,
  6754.             L39 3LD.
  6755.             United Kingdom
  6756.  
  6757.  
  6758.  Supply to:
  6759.  
  6760.  
  6761.  
  6762.  
  6763.  
  6764.  
  6765.  
  6766.  Post code:
  6767.  
  6768.  
  6769.  What is your intended use for Arcus?
  6770.  
  6771.  
  6772.  
  6773.  If this is a site licence who is the contact for Arcus newsletters?
  6774.  
  6775.  
  6776.  
  6777.  I require (tick one)   [  ] 3.5 inch 1.4MB high density diskette
  6778.                         [  ] 3.5 inch 720k diskettes
  6779.                         [  ] 5.25 inch 360k floppy disks
  6780.  
  6781.  
  6782.  I understand that I Arcus Pro-Stat version 3.0 or later requires at least a
  6783.  286 processor to run [  ].
  6784.  
  6785.  
  6786.  
  6787.  Licence fees:                      Quantity required:       Total Price:
  6788.  
  6789.  Single user        £ 139                       [    ]      [           ]
  6790.  Ten user           £ 389                       [    ]      [           ]
  6791.  Twenty user        £ 590                       [    ]      [           ]
  6792.  Fifty user         £1200                       [    ]      [           ]
  6793.  Large site         £negotiable                 [    ]      [           ]
  6794.  
  6795.  Postage & Packing: £ 8 for UK                              [           ]
  6796.                     £15 for Non-UK
  6797.  
  6798.                                                       TOTAL [           ]
  6799.  
  6800.  
  6801.  
  6802.  
  6803.  Please make all payments in pounds sterling.
  6804.  Please make cheques payable to Dr Iain E. Buchan.
  6805.  
  6806.  Official Government and University orders are accepted.
  6807.  Convertible cheques in pounds sterling or US money orders are accepted.
  6808.  
  6809.  
  6810.  If you have any questions then please telephone or FAX to the UK numbers
  6811.  listed above.
  6812.  
  6813. |Reference List|
  6814.  
  6815. ¬<Introductory Texts>╪310834    ¬───────────∙ref 1 - 3
  6816. ¬<Core Reference Texts>╪311139    ¬─────────∙ref 4 - 7
  6817. ¬<Other references>╪311556    ¬─────────────∙ref 8 - 31
  6818. ¬<Algorithms>╪315734    ¬───────────────────∙ref A1 - A21
  6819.  
  6820. |Introductory Texts|
  6821.  
  6822. 1.   Petrie Aviva, Lecture Notes on Medical Statistics, Blackwell Scientific
  6823.      Publications 1990.
  6824.  
  6825. 2.   Bland Martin, An Introduction to Medical Statistics, Oxford Medical
  6826.      Publications 1989.
  6827.  
  6828. 3.   Colton Theodore, Statistics in Medicine, Little, Brown & Co. 1974.
  6829.  
  6830. |Core Reference Texts|
  6831.  
  6832. 4.   P. Armitage & G. Berry, Statistical Methods in Medical Research,
  6833.      Blackwell 1987.
  6834.  
  6835. 5 .  Altman Douglas G., Practical Statistics for Medical Research, Chapman
  6836.      and Hall 1991.
  6837.  
  6838. 6.   Conover W. J., Practical Nonparametric Statistics, Wiley 1980.
  6839.  
  6840. 7.   Kendall M. G., Stuart A. and Ord J. K., The Advanced Theory of
  6841.      Statistics, (4th edition), London: Griffin 1983.
  6842.  
  6843. |Other References|
  6844.  
  6845. 8.   Fleiss J., Statistical Methods for Rates and Proportions, Wiley 1981.
  6846.  
  6847. 9.   Fleiss J., J. Chron. Diseases, 32, pp. 69 - 77, 1979.
  6848.  
  6849. 10.  Schlesselman J., Case-Control Studies, Oxford University Press 1982.
  6850.  
  6851. 11.  Gardner Martin J., Altman Douglas G., Statistics with Confidence -
  6852.      Confidence Intervals and Statistical Guidelines, British Medical Journal
  6853.      1989.
  6854.  
  6855. 12.  Sackett David L. et al., Clinical Epidemiology - a basic science for
  6856.      clinical medicine, Little, Brown & Co. 1985.
  6857.  
  6858. 13.  Wallenstein Sylvian, Some statistical methods useful in circulation
  6859.      research, Circulation Research 47(1) 1980.
  6860.  
  6861. 14.  Wetherill G. Barrie, Intermediate Statistical Methods, Chapman Hall 1981.
  6862.  
  6863. 15.  Hollander Myles, Wolfe Douglas A., Nonparametric Statistical Methods,
  6864.      Wiley 1973.
  6865.  
  6866. 16.  Basic Professional Development System (Compiler 7.1), Microsoft
  6867.      Corporation 1990.
  6868.  
  6869. 17.  FORTRAN Optimising Compiler (version 5.1), Microsoft Corporation 1989.
  6870.  
  6871. 18.  Finney D. J., Probit Analysis, Cambridge University Press 1971.
  6872.  
  6873. 19.  Finney D. J., Statistical Method in Biological Assay, Charles Griffin &
  6874.      Co. 1978.
  6875.  
  6876. 20.  Liddell F. D. K., Simplified exact analysis of case-referent studies;
  6877.      matched pairs; dichotomous exposure., J. Epidemiol. Comm. Health, 37,
  6878.      82-84, 1983.
  6879.  
  6880. 21.  Shapiro S. S. & Wilk M. B., An analysis of variance test for normality.,
  6881.      Biometrika, 52(3), 591 ff., 1965.
  6882.  
  6883. 22.  Miller R. G. (jnr), Simultaneous Statistical Inference, (2nd edition)
  6884.      Springer-Verlag 1981.
  6885.  
  6886. 23.  Draper N. R. and Smith H., Applied Regression Analysis, (2nd edition)
  6887.      New York: Wiley 1981.
  6888.  
  6889. 24.  Lawless J. F., Statistical Models and Methods for Lifetime Data, New York:
  6890.      Wiley 1982.
  6891.  
  6892. 25.  Kalbfleisch J. D. and Prentice R. L., Statistical Analysis of Failure
  6893.      Time Data, New York: Wiley 1980.
  6894.  
  6895. 26.  Wei L. J. and Lachin J. M., Two Sample Asymptotically Distribution Free
  6896.      Tests for Incomplete Multivariate Observations, J. Am. Statist. Ass.
  6897.      79, 653-661, 1984.
  6898.  
  6899. 27.  Bailey N. T. J., Mathematics, Statistics and Systems for Health, New York:
  6900.      Wiley 1977.
  6901.  
  6902. 28.  Cuzick Jack, A Wilcoxon-Type Test for Trend, Stat. Med. 4, 87-89, 1985.
  6903.  
  6904. 29.  Bland Martin & Altman Douglas, Statistical Methods for Assessing the
  6905.      Difference Between Two Methods of Measurement, Lancet, 307-310, 1986.
  6906.  
  6907. 30.  Dupont W. D., Power and Sample size calculations, Controlled Clinical
  6908.      Trials 11, 116-128, 1990.
  6909.  
  6910. 31.  Pearson & Hartley, Biometrika tables for statisticians, 3rd Ed.,
  6911.      Cambridge University Press, 1970.
  6912.  
  6913. 32.  Belsley, Kuh, Welsch, Regression Diagnostics, Wiley 1980.
  6914.  
  6915. 33.  Press W. H. et al., Numerical Recipies, The Art of Scientific Computing,
  6916.      2rd Ed., Cambridge University Press, 1992.
  6917.  
  6918. 34.  Ross J. G.,  NonLinear Estimation, Springer-Verlag New York 1990.
  6919.  
  6920. 35.  Gart J. J. & Nam J., Approximate interval estimation of the ratio of
  6921.      binomial parameters: a review and corrections for skewness, Biometrics 44,
  6922.      323-338, 1988.
  6923.  
  6924. 36.  Sackett David L. et al., Interpretation of diagnostic data (5), Canadian
  6925.      Medical Association Journal, 129, 947-975, 1983.
  6926.  
  6927. 37.  Laupacis A., Sackett D. L., Roberts R. S., An assessment of clinically
  6928.      useful measures of the consequences of treatment, New England J. Med.,
  6929.      318(26), 1728-33, 1988.
  6930.  
  6931. 38.  Haynes Brian & Sackett David, Personal communications on diagnosic and
  6932.      treatment outcome statistics, McMaster University, 1993.
  6933.  
  6934. 39.  Peto R., Pike M. C., Armitage P., Breslow N. E., Cox D. R., Howard S. V.,
  6935.      Mantel N., McPherson K., Peto J., Smith P. G., Design and analysis of
  6936.      randomised clinical trials requiring prolonged observation of each patient.
  6937.      Part I: Introduction and design, Br. J. Cancer, 34, 585-612, 1976.
  6938.  
  6939. 40.  Peto R., Pike M. C., Armitage P., Breslow N. E., Cox D. R., Howard S. V.,
  6940.      Mantel N., McPherson K., Peto J., Smith P. G., Design and analysis of
  6941.      randomised clinical trials requiring prolonged observation of each patient.
  6942.      Part II: Analysis and Examples, Br. J. Cancer, 34, 585-612, 1976.
  6943.  
  6944. Published |Algorithms|
  6945.  
  6946. A1   Pike M. C., Hill I. D., Algorithm 291, Logarithm of the Gamma Function,
  6947.      Comm. Ass. Comput. Mach., 9, 684 1966.
  6948.  
  6949. A2   Macleod Allan J., AS 245, A Robust and Reliable Algorithm for the
  6950.      Logarithm of the Gamma Function, Appl. Statist. 38(2) 1989.
  6951.  
  6952. A3   Hill I. D., AS 66, The Normal Integral, Appl. Statist. 22(3) 1973.
  6953.  
  6954. A4   Odeh R. E., Evans J. O., AS 70, Percentage Points of the Normal
  6955.      Distribution, Appl. Statist. 23 1974.
  6956.  
  6957. A5   Best D. J., Roberts D. E., AS 91, The Percentage Points of the Chi²
  6958.      Distribution, Appl. Statist. 24(3) 1975.
  6959.  
  6960. A6   Dinneen L. C., Blakesley B. C., AS 62, A Generator for the Sampling
  6961.      Distribution of the Mann-Whitney U Statistic, Appl. Statist. 22(2) 1973.
  6962.  
  6963. A7   Majumder K. L., Bhattcharjee G. P., AS 63, The Incomplete Beta Integral,
  6964.      Appl. Statist. 22(3) 1973.
  6965.  
  6966. A8   Majumder K. L., Bhattcharjee G. P., AS 64, Inverse of the Incomplete Beta
  6967.      Function Ratio, Appl. Statist. 22(3) 1973.
  6968.  
  6969. A9   Cran G. W., Martin K. J., Thomas G. E., R19 and AS 109 further to AS 63
  6970.      and AS 64, Appl. Statis. 26(1) 1977.
  6971.  
  6972. A10  Berry K. J., Mielke P. W., Cran G. W., R83 further to AS 64, Appl.
  6973.      Statist. 39(2) 1990.
  6974.  
  6975. A11  Lund R. E., Lund J. R., AS 190, Probabilities and Upper Quantiles for the
  6976.      Studentized Range, Appl. Statist. 34 1983.
  6977.  
  6978. A12  Royston J. P., R69 further to AS 190, Appl. Statist. 1987
  6979.  
  6980. A13  Best D. J., Roberts D. E., AS 89, Upper Tail Probabilities of Spearman's
  6981.      Rho, Appl. Statist. 24(3) 1975.
  6982.  
  6983. A14  Best D. J., Gipps P. G., AS 71, Upper Tail Probabilities of Kendall's Tau,
  6984.      Appl. Statist. 23(1) 1974.
  6985.  
  6986. A15  Thomas Donald G., AS 36, Exact Confidence Limits for the Odds Ratio in a
  6987.      Two by Two Table, Appl. Statist. 20(1) 1971.
  6988.  
  6989. A16  Shea B. L., AS 239, Chi-square and incomplete gamma integral, Appl.
  6990.      Statist. 37(3) 1988.
  6991.  
  6992. A17  Royston J. P., AS 181, The W Test for Normality, Appl. Statist. 31(2)
  6993.      1982.
  6994.  
  6995. A18  Royston J. P., AS 177.3, Expected Normal Order Statistics (Approximate),
  6996.      Appl. Statist. 31(2), 1982.
  6997.  
  6998. A19  Harding E. F., An Efficient Minimal Storage Procedure for Calculating the
  6999.      Mann-Whitney U, Generalised U and Similar Distributions, Appl. Statist.
  7000.      33 1983.
  7001.  
  7002. A20  Neumann N., Some Procedures for Calculating the Distributions of
  7003.      Elementary Nonparametric Test Statistics, Statistical Software
  7004.      Newsletter, 14(3) 1988.
  7005.  
  7006. A21  Makuch Robert et. al., AS 262, A Two Sample Test for Incomplete
  7007.      Multivariate Data, Appl. Statist. 40(1), 1991.
  7008.